machine-learning - 機械学習 - 概念 / 推奨事項

Question

こんにちは、私は機械学習が初めてなので、テキスト分類ソリューションを探しています。Java で書かれた素敵なフレームワークを勧めてもらえますか? WEKAを使おうと思ったのですが、MALLETも聞きました。主な違いはどこですか？

私の目標は、ラベルのないテキストを分類することです。そのため、学習用に約 18 のトピックとトピックごとに 100 のテキストを用意しました。

何をすることをお勧めしますか？また、進め方のちょっとした例やヒントをいただければ幸いです。

score 2 · Accepted Answer

非常に最小限のテキストデータセットがあり、任意のライブラリを使用できます。それは実際には問題ではありません。より高度なオプションでは、意味のあるものにするために必要なデータよりも多くのデータが必要になるため、検討する価値のある問題ではありません。テキスト分類の問題を処理する簡単な方法は、Bag of Wordsモデルと線形分類子を使用することです。Weka と MALLET の両方がこれをサポートしています。

個人的には、Weka は苦痛であり、MALLET は文書化が不十分である/時代遅れであることがわかっているため、JSATを使用しています。ここにスパム分類の例があります。

(バイアス警告、私は JSAT の作成者です)。

machine-learning - 機械学習 - 概念 / 推奨事項

2 に答える 2

Related

Reference