3

与えられたテキストのムードを予測するシステム (要するに感情分析) を開発することを計画しています。

また、apache mahout の方が好みです。これは非常に巨大なデータであり、システムはリアルタイムでスケーラブルでなければならないからです。センチメント分析に適した apache mahout が提供するアルゴリズムを教えてください。

4

1 に答える 1

3

トレーニング データにラベルを付けた場合は、最も単純な教師あり学習アルゴリズムの 1 つである (Mahout でサポートされている) Naive Bayes 分類器を試すことができます。何らかの理由でそれが十分でない場合は、ロジスティック回帰などのより複雑なアルゴリズムを試すことができます.

ラベル付けされたデータがない場合は運が悪いです - これを機能させるには、いくつかを取得する必要があります (たとえば、Amazon の Mechanical Turkを介してデータにラベル付けする人を雇うなど) 。

ところで、私たちが話しているデータのサイズはどれくらいですか? (数百ギガバイトまでの場合は、このタイプのモデルをトレーニングするために hadoop/mahout は必要ありません。もちろん、すでに Hadoop にそのデータが存在する場合を除きます..)

于 2011-12-27T23:23:00.623 に答える