statistics - 入力データの新しい傾向をやみくもに分類する

Question

Google ニュースなどの報道機関は、「オバマの 2011 年の予算」などの新たなトピックに関するドキュメントをどのように自動的に分類し、ランク付けしていますか?

選手名や記事との関連性などの野球データでタグ付けされた記事の山があり (opencalais に感謝)、新しい投稿が入ってくると、特に新しい投稿をランク付けして表示する Google ニューススタイルのインターフェイスを作成したいと考えています。トピック。素朴なベイズ分類器はいくつかの静的カテゴリでトレーニングできると思いますが、これでは「このプレーヤーはこのチームにトレードされたばかりで、これらの他のプレーヤーも関与していた」などの傾向を追跡することはできません。

score 4 · Accepted Answer

間違いなく、Google ニュースは他のトリック (またはそれらの組み合わせ) を使用する可能性がありますが、フリーテキストからトピックを推測する計算的に比較的安価なトリックの 1 つは、単語が他の単語に接続されている場合にのみ意味を取得するというNLP の概念を利用します。
複数のドキュメントから新しいトピックカテゴリを発見できるアルゴリズムは、次のように概説できます。

POS (品詞) でテキストにタグ
を付けるおそらく名詞にもっと焦点を当てたいと思いますが、名前付きエンティティ ( ObamaやNew Englandなど)にはもっと焦点を当てたいと考えています。
テキストを正規化する
特に、語形変化した単語を共通語幹で置き換えます。いくつかの形容詞を対応する固有表現に置き換えることもあるでしょう (例: Parisian ==> Paris、legal ==> law)
また、ノイズワードとノイズ表現を削除します。
手動で維持されている「現在/繰り返し発生しているホットワード」のリストからいくつかの単語を特定します (スーパーボウル、選挙、スキャンダルなど)
。
各ドキュメントで見つかったすべての N グラムを列挙します (ここで、N は 1 で 4 または 5 です)
。特定のドキュメント内の各 N グラムの出現回数と、特定の N を引用するドキュメントの数を別々に数えてください。 -グラム
最も頻繁に引用される N グラム (つまり、最も多くのドキュメントで引用されているもの) は、おそらくトピックです。
既存のトピックを特定する (既知のトピックのリストから)
[オプション] 新しいトピックを手動で確認する

この一般的なレシピは、ドキュメントの他の属性とその中のテキストを活用するように変更することもできます。たとえば、ドキュメントの出所 (cnn/sports と cnn/politics など) を使用して、ドメイン固有のレキシコンを選択できます。もう 1 つの例として、ドキュメントタイトル (または特定のマークアップを含むテキストの他の領域) の単語/表現を多かれ少なかれ強調することができます。

score 2 · Accepted Answer

Google ニュースの背後にある主なアルゴリズムは、Google の研究者によって学術文献で公開されています。

statistics - 入力データの新しい傾向をやみくもに分類する

2 に答える 2

Related

Reference