1

ユーザーのツイートを解析し、以前に指定したカテゴリに分類するスクリプトを作成したいと考えています。例えば:

「エド・ミリバンドはブレア派に『誘惑』されれば選挙に負けるだろう、と組合長は言うhttp://bit.ly/145CRAD

ドメイン政治に分類されます。

「親愛なるサチン、あなたは 40 歳です。スポーツカーを購入し、20 歳の金髪の女性と恋に落ちます。中年の危機を楽しんでください。IPL は男の子たち、つまりあなたのファンのために残してください」

ドメイン クリケットに分類されます。

これを行う最善の方法は何ですか?

4

4 に答える 4

4

「トピック モデル」を探しています。手法には、潜在的なディリクレ割り当てなどがあります。ウィキペディアの記事には、Malletなどの役立つリソースへのリンクが含まれています。

使用したい言語や「最高」の意味を指定していませんか? 実装が最も簡単か、最速か、それとも最良の結果か?

もう 1 つの方法は、人間 (Amazon Mechanical Turk など) を使用することです。これは、すべての略語、皮肉、ハッシュタグを考慮すると分類が難しいことで有名なツイートに対して「最良の」結果をもたらす可能性があります... #notAnEasyProblem.

于 2013-04-24T17:53:53.307 に答える
1
  1. トピックの分類 (従来の分類手法)
  2. エンティティ抽出と、たとえば人やツイート アカウントに関連するトピックを特定するためのより複雑な手法。

この論文は、探し始めるのに良いポイントです... http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf

于 2013-04-24T17:43:27.207 に答える
1

これは、文書分類と呼ばれる自然言語処理 (NLP) の分野における複雑な問題です。最高のオープン ソース ライブラリの 1 つは、The Stanford NLP Groupによって管理されています。幸運を!

于 2013-04-25T17:40:40.777 に答える
0

ルダはどうですか?話題のモデル!

Pythonでonline-ldaを試すことができます

http://www.cs.princeton.edu/~blei/topicmodeling.html

次に、分散ldaを試してみたい場合(より高速)

あなたはlight-ldaを試すことができます

于 2016-04-16T15:58:32.980 に答える