11

簡単な分類問題を解こうとしています。

問題:
テキストのセットがあり、コンテンツに基づいてそれらを分類する必要があります。

Mahout を使用したソリューション:
モデルを生成するには、入力をシーケンス ファイルに変換する必要があることを理解しました。はい、できました。では、テスト データをどのように分類すればよいでしょうか。20News の例では、正確性のみをテストしています。しかし、私は実際の分類をしたいです。
コードを書く必要があるのか​​、テスト セットを分類するために利用可能な既存のクラスを使用する必要があるのか​​ わかりません。

4

2 に答える 2

3

私も同様の問題を抱えています。

ランニング

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

モデルに基づいてテキストファイルを分類します。

これで少し先に進むかもしれませんが、私のように、大量のドキュメントを分類し、有用な形式の出力が必要だと思います。

これを行うには、Javaを少しプログラムする必要があるかもしれません。誰かがhttps://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.javaで私が望むことを実行するように見える例を持っています

于 2011-02-25T08:35:23.343 に答える
3

私は自分の仕事をプラグインするのは嫌いですが、分類に関するセクション全体を Mahout in Action に入れました。理論、コード例、ケース スタディの実践、さらにはサーバー ファーム全体の実装。

プレリリース バージョンは、http://www.manning.com/owen/で入手できます。

于 2011-03-31T18:00:52.893 に答える