python - Python メモリエラー - Sklearn 巨大な入力データ?

Question

sklearn で svm 分類子をトレーニングする必要があります。特徴ベクトルの次元は数十万になり、そのような特徴ベクトルは数万あります。ただし、各次元は 0、1、または -1 にすることができます。各特徴ベクトルで非ゼロは約 100 のみです。特徴ベクトルに関する情報を分類子に与える効率的な方法はありますか?

score 2 · Accepted Answer

sklearn で svm 分類子をトレーニングする必要があります。

つまりsklearn.svm.SVC？高次元のスパースデータと多くのサンプルの場合LinearSVC、、LogisticRegression、PassiveAggressiveClassifierまたはSGDClassifierは、同等の予測精度を得るためにはるかに高速にトレーニングできます。

特徴ベクトルの次元は数十万にもなり、そのような特徴ベクトルは何万もあります。ただし、各次元は 0、1、または -1 にすることができます。各特徴ベクトルで非ゼロは約 100 のみです。特徴ベクトルに関する情報を分類子に与える効率的な方法はありますか?

scipy.sparseメモリにゼロを格納しない行列としてデータを読み込む方法を見つけてください。特徴抽出に関するドキュメントをご覧ください。元のデータの表現の性質に応じて、それを行うためのツールが提供されます。

python - Python メモリ エラー - Sklearn 巨大な入力データ?

1 に答える 1

Related

Reference

python - Python メモリエラー - Sklearn 巨大な入力データ?