1

2 つの異なるフォルダーがあります。1 つはポジティブ クラス用で、もう 1 つはネガティブ クラス用です。各フォルダーには、ドキュメントのコレクションが含まれています。このトレーニング データ セットを LibSVM 形式に変換できるユーティリティはありますか?

4

1 に答える 1

2

scikit-learn を使用して、これを行うための Python スクリプトを作成できます。次のユーティリティを使用できます。

  • テキストドキュメントをロードするためのload_files 、

  • TfIdfVectorizerscipy.sparseは、メモリ マトリックスのようにテキストの特徴を抽出します。

  • dump_svmlightを使用して、結果の疎行列を svmlight 形式を使用してディスクに保存します。

于 2012-10-04T10:13:21.010 に答える