java - Java 用 LIBSVN ライブラリを使用したテキスト分類用の SVM

翻译自：https://stackoverflow.com/questions/17662988 2013-07-15T20:10:05.030

2505 次

テキストドキュメントのセットで SVM モデルをトレーニングし、モデルに基づいて新しいドキュメントを分類する Java アプリケーションを構築しようとしています。これを行うことができる Java のパッケージを探し回った結果、libsvm の実装が最適であることがわかりました。

1) 私のトレーニング入力は基本的に、ドキュメントテキストと正しいラベルを含むテキストファイルです。libsvm パッケージは現在、数値データでのみ機能することを理解しています。つまり、テキストファイルと機能 (単語) を数値形式に変換する必要があります。TF-IDF はこれを行う良い方法ですか? TF-IDF を生成できる Java ライブラリはありますか?

2) データは次の形式でモデルに入力する必要があります

<class label> <feature 1>:<value 1> <feature 2>:<value 2> ...... <feature n>:<value n>

私の場合、機能はドキュメント内の単語であり、値は TF-IDF 値です。私の解釈は正しいですか？

libsvm が使用された同様の例はありますか? 私はいくつかの検索を行いましたが、まったく運がありませんでした!

java - Java 用 LIBSVN ライブラリを使用したテキスト分類用の SVM

1 に答える 1

Related

Reference