java - 細かいテキストの分類 - どんなアルゴリズム?

Question

私は約 150 のカテゴリ (おそらく Java) を持つ分類子を主にツイート (非常に小さなドキュメント) 用に実装しようとしています。「企業」、「競争」、「消費者」、「国際法」、「国際機関」、「国際政治と政府」。このような高解像度が必要な場合、どのアルゴリズム/アプローチが最適ですか? Naive Bayes (obv) を試しましたが、これまでのところあまりうまく機能していません (ただし、トレーニングデータの品質が原因である可能性があります)。コミュニティの考えは大歓迎です！

ありがとう、

マーク

score 5 · Accepted Answer

(潜在的に多くの) サブ分類子のレベルから構築された階層分類子を考え出すことは価値があるかもしれません (つまり、ドキュメントラベルの分類法を考え出します)。

単一分類器

多くの可能性のあるクラスラベルを持つ単一の分類子

単一の分類子は、多くの可能なクラスラベルのいずれかを出力できます。

階層分類子

階層分類子は、関連するクラスラベルをまとめてグループ化し、リーフノードに到達するまで (または信頼度が特定のしきい値を下回るまで) 追加の分類レイヤーを実行します。

直感

直観的には、カテゴリの数が少ないほど、分類器は識別機能を学習しやすくなります。

たとえば、階層型分類器はplayer、スポーツを示す優れた特徴である学習が容易になる可能性がありますが、1 つの分類器がplayer1 つのカテゴリ (バスケットボール) のみで見られ、別のカテゴリ (ホッケー) では見られない場合、単一の分類器はより困難になります。

score 2 · Accepted Answer

ウェカ

Weka は、さまざまな機械学習モデル (Naive Bayes、C4.5、OneR、SVM、K-NN など) を使用したさまざまな実験用のツールであり、データマイニングに最も使用されているものの 1 つです。さまざまなモデルを試して、問題に最適なものを確認したい場合があります。

Java コードからアルゴリズムを呼び出すか、実行可能ファイルを使用してデータセットで直接実行できます。

カテゴリが似ているので、いくつかのマルチラベル分類方法も確認したいかもしれません

java - 細かいテキストの分類 - どんなアルゴリズム?

3 に答える 3

単一分類器

階層分類子

直感

Related

Reference