apache - Apache Mahout を使用してデータを分類する

Question

簡単な分類問題を解こうとしています。

問題:
テキストのセットがあり、コンテンツに基づいてそれらを分類する必要があります。

Mahout を使用したソリューション:
モデルを生成するには、入力をシーケンスファイルに変換する必要があることを理解しました。はい、できました。では、テストデータをどのように分類すればよいでしょうか。20News の例では、正確性のみをテストしています。しかし、私は実際の分類をしたいです。
コードを書く必要があるのか、テストセットを分類するために利用可能な既存のクラスを使用する必要があるのかわかりません。

score 3 · Accepted Answer

私も同様の問題を抱えています。

ランニング

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

モデルに基づいてテキストファイルを分類します。

これで少し先に進むかもしれませんが、私のように、大量のドキュメントを分類し、有用な形式の出力が必要だと思います。

これを行うには、Javaを少しプログラムする必要があるかもしれません。誰かがhttps://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.javaで私が望むことを実行するように見える例を持っています

score 3 · Accepted Answer

私は自分の仕事をプラグインするのは嫌いですが、分類に関するセクション全体を Mahout in Action に入れました。理論、コード例、ケーススタディの実践、さらにはサーバーファーム全体の実装。

プレリリースバージョンは、http://www.manning.com/owen/で入手できます。

apache - Apache Mahout を使用してデータを分類する

2 に答える 2

Related

Reference