テキスト ドキュメントのセットで SVM モデルをトレーニングし、モデルに基づいて新しいドキュメントを分類する Java アプリケーションを構築しようとしています。これを行うことができる Java のパッケージを探し回った結果、libsvm の実装が最適であることがわかりました。
1) 私のトレーニング入力は基本的に、ドキュメント テキストと正しいラベルを含むテキスト ファイルです。libsvm パッケージは現在、数値データでのみ機能することを理解しています。つまり、テキスト ファイルと機能 (単語) を数値形式に変換する必要があります。TF-IDF はこれを行う良い方法ですか? TF-IDF を生成できる Java ライブラリはありますか?
2) データは次の形式でモデルに入力する必要があります
<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>
私の場合、機能はドキュメント内の単語であり、値は TF-IDF 値です。私の解釈は正しいですか?
libsvm が使用された同様の例はありますか? 私はいくつかの検索を行いましたが、まったく運がありませんでした!