こんにちは、私は機械学習が初めてなので、テキスト分類ソリューションを探しています。Java で書かれた素敵なフレームワークを勧めてもらえますか? WEKAを使おうと思ったのですが、MALLETも聞きました。主な違いはどこですか?
私の目標は、ラベルのないテキストを分類することです。そのため、学習用に約 18 のトピックとトピックごとに 100 のテキストを用意しました。
何をすることをお勧めしますか?また、進め方のちょっとした例やヒントをいただければ幸いです。
こんにちは、私は機械学習が初めてなので、テキスト分類ソリューションを探しています。Java で書かれた素敵なフレームワークを勧めてもらえますか? WEKAを使おうと思ったのですが、MALLETも聞きました。主な違いはどこですか?
私の目標は、ラベルのないテキストを分類することです。そのため、学習用に約 18 のトピックとトピックごとに 100 のテキストを用意しました。
何をすることをお勧めしますか?また、進め方のちょっとした例やヒントをいただければ幸いです。
非常に最小限のテキスト データ セットがあり、任意のライブラリを使用できます。それは実際には問題ではありません。より高度なオプションでは、意味のあるものにするために必要なデータよりも多くのデータが必要になるため、検討する価値のある問題ではありません。テキスト分類の問題を処理する簡単な方法は、Bag of Wordsモデルと線形分類子を使用することです。Weka と MALLET の両方がこれをサポートしています。
個人的には、Weka は苦痛であり、MALLET は文書化が不十分である/時代遅れであることがわかっているため、JSATを使用しています。ここにスパム分類の例があります。
(バイアス警告、私は JSAT の作成者です)。