java - Javaを使用してドキュメントをフィルタリングするには、wekaでSVMを作成する必要があります

Question

私は全くの初心者です。Javaを使用してwekaで分類子などを作成したことはありません。以前にインターフェースを使用したことがあります。基本的に、weka のフィルタークラスを見て、少し遊んでみました。私の文書はテキスト文書であり、それらを 2 つのカテゴリに分ける必要があります。

カテゴリを定義する方法や、ドキュメントを IDE にロードして分類する方法がわかりません

:-(

ヘルプ/チュートリアルまたはポインタは大歓迎です。

score 2 · Accepted Answer

オンラインで利用できるリソースはほとんどありませんが (私が見つけたものです)、この Java チュートリアルは非常に役に立ちました。

お役に立てれば

score 2 · Accepted Answer

初めて weka を使用するのは面倒ですが、経験する必要があります。

また、weka を試してみましたが、JVM のメモリ不足の例外のためにダンプする必要がありました。私は Ruby を使用して独自の小さなクラスタリングアルゴリズムを作成しましたが、そのパフォーマンスははるかに優れていました。

とにかく、WEKAでSVMを使用する方法は次のとおりです。

weka で SVM を使用する方法のこのチュートリアルに従うことができます: www.stat.nctu.edu.tw/~misg/WekaInC.ppt
ここで、ARFF 形式のデータが必要になります (そして、これを使用することをお勧めします。私の経験によると、データは WEKA の観点からより構造化されているように見えます)。したがって、私が自分で書いたXML2ARFF-Converterを使用してそれを行うことができます。テキストファイルを読み取り、テキストファイルを ARFF に変換するように変更できます。

2 に答える 2