問題タブ [subsampling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R の datetime 列に基づいてデータ フレームをサブサンプリングする方法
データ フレームの最初の行の時間値から始めて、datetime 列から 1 時間間隔でデータ フレームをサブサンプリングしたいと思います。私のデータ フレームは、最初の行から最後の行まで 10 分間隔で実行されます。例のデータは次のとおりです。
df
次のデータフレームで終了したいと思います。
どんな提案でも大歓迎です!
stata - 世帯別、2000 年 2 月以降に観測を開始した場合のみデータを保持 - Stata
私は Stata で作業しており、ポートフォリオ (houseID)、年と月、stockID、株式のリターンを一覧表示するデータを持っています。データは数年に及びます。次のようになります。
基本的に、データのサブサンプルを分離しようとしています。最初のポートフォリオ観測が 2000 年 2 月であった場合、それらの家とそのデータのみを保持したいと思います。上記のデータでは、家 223 と 382 を削除し、448 のデータのみを保持したいと思います。
私の最初の試みは次のようなことでした:
HouseID による: 次の場合に保持します....
しかし、私は絶えずそれを台無しにしています。誰にもアイデアはありますか?助けてくれてありがとう!!
r - RでSpatialPointsDataFrameをサブサンプリングするにはどうすればよいですか
私はRandomForestの実行に取り組んでいます。使用済みおよび未使用のサイトを表すポイント データをインポートし、ラスター GIS レイヤーからラスター スタックを作成しました。使用済みおよび未使用のすべてのポイントとその基になるラスター値がアタッチされた SpatialPointDataFrame を作成しました。
次に、このデータを使用してランダム フォレストを実行する予定です。問題は、非常に大きなデータ セット (40,000 以上のデータ ポイント) があることです。データをサブサンプリングする必要がありますが、これを行う方法を理解するのに非常に苦労しています。sample() 関数を使用してみましたが、SpatialPointsDataFram があるため機能しないと思いますか? 私はRが初めてで、どんなアイデアでも本当に感謝しています。
ありがとう!
php - PHPでjpegサブサンプリングを調整することは可能ですか?
クライアント用の画像アップローダを作成しており、ファイル サイズの最小化に取り組んでいます。すでに品質を調整し、最適化とプログレッシブを設定し、exif データを削除し、サブサンプリングとスムージングを調整する方法を探しています。jpeg のクロマ サブサンプリングを 4X4X4 ではなく 4X2X2 に調整できる php 関数があるかどうか疑問に思っています。私は IMagick を使用していないので、それを行うための通常の php 関数があるかどうか疑問に思っています。
pandas - パンダのサブサンプリング
時間で測定されるイベント データがいくつかあるので、データ形式は次のようになります。
ここで、最初の列は実験開始からの経過時間 (秒単位) です。他の 2 つの列はいくつかの観察です。行は、特定の条件が真の場合に作成されます。これらの条件は、ここでの説明の範囲を超えています。セミコロンで区切られた 3 つの数値の各セットは、データの行です。ここでの時間の解決の最小粒度はわずか数秒であるため、同じタイムスタンプを持つ 2 つの行が存在する可能性がありますが、観察結果は異なります。基本的に、これらは時間が区別できなかった 2 つの異なるイベントでした。
今私の問題は、10秒または100秒ごと、または1000秒ごとにサブサンプリングすることにより、データシリーズをロールアップすることです。したがって、元のより粒度の高いデータ シリーズからスキミングされたデータ シリーズが必要です。どの行を使用するかを決定する方法はいくつかあります。たとえば、10 秒ごとにサブサンプリングしているとします。10 秒が経過すると、タイム スタンプが 10 秒の行が複数ある可能性があります。あなたはどちらかを取ることができます
私はこれをパンダでやろうとしています。アイデアや開始方法は非常に高く評価されます。ありがとう。
opencv - Max プーリングの Max 値にアクティベーション関数を適用する必要がありますか?
Lecun で畳み込みニューラル ネットワークを実装しようとしています。2 つの質問があります。1) maxpooling レイヤーの (max_value * weight_value) にアクティベーション関数を乗算する必要がありますか。2) 2x2 受容野から値を 1 つだけ選択したため、エラーを逆伝播するよりも「はい」の場合。受容野の他の3つの値のエラーをどのように分散できますか. すべての 2x2 ウィンドウに対して 1 つのエラーを複製する必要がありますか? 3) バックプロパゲーション以外の場合どうすれば出力の行列式 (x*(1-x)) を取得できますか? 勾配を見つけるには、活性化された加重和の微分が必要です。 marquardt 法、式 (21) の eeta と meeo の値は何を取るべきか Lecun Paper http://enpub.fulton.asu.edu/cseml/summer08/papers/cnn-appendix.pdfの 2319 ページ
説明やコードサンプルなどに感謝します。
python - scikit-learn バランス サブサンプリング
大規模な不均衡なデータセットの N 個のバランスの取れたランダム サブサンプルを作成しようとしています。scikit-learn / pandas で簡単にこれを行う方法はありますか、それとも自分で実装する必要がありますか? これを行うコードへのポインタはありますか?
これらのサブサンプルはランダムである必要があり、分類子の非常に大きなアンサンブルで個別の分類子にそれぞれフィードするため、重複する可能性があります。
Wekaにはspreadsubsampleというツールがありますが、sklearnに同等のものはありますか? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample
(重み付けについては知っていますが、それは私が探しているものではありません。)
neural-network - 有名な畳み込みニューラル ネットの例では、プーリングとサブサンプリング後に次元を計算できませんでした
上の画像は、Yann LeCun による「Hierarchical Models Of Perception and Reasoning」というタイトルの pdf からのものです。
レイヤー 2 が 14X14 フィーチャー マップである方法を理解できませんか? 10X10 プーリングと 5X5 サブサンプリングを使用した 75X75 マトリックスは、どのようにして 14X14 マトリックスを生成できますか?
python - パンダ - 連続する値は異なる必要があります
特定の列の連続する値のすべてのペアが異なるように、データフレームの行をサブサンプリングしたいのですが、そのうちの2つが同じ場合、たとえば最初のものを保持します。
ここに例があります
desiredDf では、p 列の 2 つの連続する値がすべて異なります。
classification - データセットをサブサンプリングする方法
svm(サポート ベクター マシン) やその他のさまざまな分類アルゴリズムを実装する予定です。しかし、私の列車のデータセットは 10Gb です。どうすればサブサンプリングできますか? これは非常に基本的なレベルの質問ですが、私は初心者です。
助けてくれてありがとう