text-mining - 関連トピックのリンク IR

Question

何らかの関連性を持つ用語(キーワードエンティティ) をテキストドキュメントを介してリンクする方法。たとえば、Googleで人を検索すると、その人に関連する他の人のおすすめが表示されます。

この画像では、配偶者、大統領候補、同等の指名を計算しました

頻度カウント手法を使用しています。同じドキュメントに2 つの用語が出現するほど、それらが何らかの関係を持つ可能性が高くなります。しかし、これはまた、テキスト文書内のページマーク、動詞、ページ参照などの無関係な用語をリンクします。

どうすれば改善できますか?他に簡単だが信頼できる手法はありますか?

score 1 · Accepted Answer

あなたはいくつかのテクニックを見るべきです

1.)ストップワードフィルタリング: テキストマイニングでは、頻繁に使用される 2 つのフィルターワードが一般的です。the、aなどis。_ 定義済みの辞書があります。

2.) TF/IDF : TF/IDF は、単語がドキュメントをどれだけ分離しているかに基づいて、単語の重み付けを変更します。

3.)名前付きエンティティの認識: 目前のタスクでは、名前だけに注目するだけで十分かもしれません。名前付きエンティティ認識により、ドキュメントから名前を抽出できます

4.)線形ディリクレ配分: LDA はドキュメント内の概念を見つけます。概念とは、頻繁に一緒に現れる単語のセットです。

1 に答える 1