間違いなく、Google ニュースは他のトリック (またはそれらの組み合わせ) を使用する可能性がありますが、フリーテキストからトピックを推測する計算的に比較的安価なトリックの 1 つは、単語が他の単語に接続されている場合にのみ意味を取得するというNLP の概念を利用します。
複数のドキュメントから新しいトピック カテゴリを発見できるアルゴリズムは、次のように概説できます。
- POS (品詞) でテキストにタグ
を付けるおそらく名詞にもっと焦点を当てたいと思いますが、名前付きエンティティ ( ObamaやNew Englandなど)にはもっと焦点を当てたいと考えています。
- テキストを正規化する
特に、語形変化した単語を共通語幹で置き換えます。いくつかの形容詞を対応する固有表現に置き換えることもあるでしょう (例: Parisian ==> Paris、legal ==> law)
また、ノイズ ワードとノイズ表現を削除します。
- 手動で維持されている「現在/繰り返し発生しているホット ワード」のリストからいくつかの単語を特定します (スーパーボウル、選挙、スキャンダルなど)
。
- 各ドキュメントで見つかったすべての N グラムを列挙します (ここで、N は 1 で 4 または 5 です)
。特定のドキュメント内の各 N グラムの出現回数と、特定の N を引用するドキュメントの数を別々に数えてください。 -グラム
- 最も頻繁に引用される N グラム (つまり、最も多くのドキュメントで引用されているもの) は、おそらくトピックです。
- 既存のトピックを特定する (既知のトピックのリストから)
- [オプション] 新しいトピックを手動で確認する
この一般的なレシピは、ドキュメントの他の属性とその中のテキストを活用するように変更することもできます。たとえば、ドキュメントの出所 (cnn/sports と cnn/politics など) を使用して、ドメイン固有のレキシコンを選択できます。もう 1 つの例として、ドキュメント タイトル (または特定のマークアップを含むテキストの他の領域) の単語/表現を多かれ少なかれ強調することができます。