-2

こんにちは、私は機械学習が初めてなので、テキスト分類ソリューションを探しています。Java で書かれた素敵なフレームワークを勧めてもらえますか? WEKAを使おうと思ったのですが、MALLETも聞きました。主な違いはどこですか?

私の目標は、ラベルのないテキストを分類することです。そのため、学習用に約 18 のトピックとトピックごとに 100 のテキストを用意しました。

何をすることをお勧めしますか?また、進め方のちょっとした例やヒントをいただければ幸いです。

4

2 に答える 2

2

非常に最小限のテキスト データ セットがあり、任意のライブラリを使用できます。それは実際には問題ではありません。より高度なオプションでは、意味のあるものにするために必要なデータよりも多くのデータが必要になるため、検討する価値のある問題ではありません。テキスト分類の問題を処理する簡単な方法は、Bag of Wordsモデルと線形分類子を使用することです。Weka と MALLET の両方がこれをサポートしています。

個人的には、Weka は苦痛であり、MALLET は文書化が不十分である/時代遅れであることがわかっているため、JSATを使用しています。ここにスパム分類の例があります。

(バイアス警告、私は JSAT の作成者です)。

于 2014-07-22T22:32:30.817 に答える