2 つの異なるフォルダーがあります。1 つはポジティブ クラス用で、もう 1 つはネガティブ クラス用です。各フォルダーには、ドキュメントのコレクションが含まれています。このトレーニング データ セットを LibSVM 形式に変換できるユーティリティはありますか?
1 に答える
2
scikit-learn を使用して、これを行うための Python スクリプトを作成できます。次のユーティリティを使用できます。
テキストドキュメントをロードするためのload_files 、
TfIdfVectorizer
scipy.sparse
は、メモリ マトリックスのようにテキストの特徴を抽出します。dump_svmlightを使用して、結果の疎行列を svmlight 形式を使用してディスクに保存します。
于 2012-10-04T10:13:21.010 に答える