テキスト分類タスクには、どちらの製品 (Mallet または Weka) が適していますか?
- トレーニングがより簡単に
- より良い結果
- ドキュメンテーション
私はこの問題に慣れていないので、コメントは素晴らしいでしょう
MALLET ははるかに使いやすく、ほとんどの仕事を目に見えないところで行います。形式を変換する必要もありません。テキスト ファイルを渡すだけで、結果が返されます。
Weka では、テキストを特定の形式に変換する必要があります (そのための Weka スクリプトは非常に遅く非効率的であるため、独自の形式を作成することをお勧めします)。
MALLET の問題は、トレーニングに GB のメモリが使用され、トレーニング セットが大きい場合は数時間かかることです。
Weka にはより多くのドキュメントがありますが、そのほとんどは意味がありません。MALLET のドキュメントはほとんどありませんが、使い方は非常に簡単です。
正直なところ、両方をテストした後、独自の分類器を作成することにしました。
Weka vs Mallet は本当に楽しんでいます。まだ十分にわかっていないかもしれませんが、GUI で機械学習を行うことは素晴らしいことです。パラメータを微調整し、さまざまな実験を実行することができます (過去の実験の結果を目の前に保持することもできます)。Weka は初めてなので、これは FWIW です。
どちらがトレーニングしやすいかというと、Weka の方が簡単だと思います。Mallet をテキストに向けるだけで、特徴空間をどのように制御できるかはわかりませんが (おそらくそれで十分です)、Mallet での私の経験は Weka に匹敵するものでした... Mallet で何らかのシリアル化されたバージョンのデータを利用するには、複数の手順を実行する必要があることに注意してください。
あなたの他の質問に関しては、私は今それらに本当に答えることができませんが、とにかくそこにあるのは良い情報であるため、この答えが反対票を投じられないことを願っています.