1

R で SVM を使用してモデリングするために、Windows XP オペレーティング システムと 2 GB RAM で kernlab パッケージ (ksvm メソッド) を使用しました。しかし、201497 のようにより多くのデータ行があるため、データ モデリングの処理のためにより多くのメモリを提供することはできません (取得の問題: 2.7 GB を超えるベクトル サイズを割り当てることができません)。

そのため、SCM モデリングには Amazon マイクロおよびラージ インスタンスを使用しました。ただし、ローカル マシンと同じ問題があります (2.7 GB を超えるベクトル サイズを割り当てることができません)。

BIG DATAモデリングでこの問題の解決策を教えてもらえますか、それとも何か問題がありますか?

4

1 に答える 1

4

再現可能な例がなければ、データセットが大きすぎるのか、それともスクリプトの一部が最適ではないのかを判断するのは困難です。いくつかの一般的な指針:

  • High Performance Computing Taskviewを見てください。これには、BigData の操作に関連する主要な R パッケージが一覧表示されています。
  • モデルのトレーニングにはデータセット全体を使用します。サブセット (たとえば 10%) を取得して、それにモデルを適合させることができます。この手順を数回繰り返すと、使用するデータのサブセットにモデルの適合性が影響するかどうかについての洞察が得られます。
  • PCA 分析などの一部の分析手法は、データを反復的に、つまりチャンク単位で処理することによって実行できます。これにより、非常に大きなデータセット (>> 100 GB) の分析が可能になります。でこれが可能かどうかはわかりませんkernlab
  • 使用している R のバージョンが 64 ビットかどうかを確認します。
  • この以前の質問は興味深いかもしれません。
于 2012-10-30T07:33:09.653 に答える