1

何らかの関連性を持つ用語(キーワード エンティティ) をテキスト ドキュメントを介してリンクする方法。たとえば、Googleで人を検索すると、その人に関連する他の人のおすすめが表示されます。

ここに画像の説明を入力

この画像では、配偶者大統領候補同等の指名を計算しました

頻度カウント手法を使用しています。同じドキュメントに2 つの用語が出現するほど、それらが何らかの関係を持つ可能性が高くなります。しかし、これはまた、テキスト文書内のページマーク、動詞、ページ参照などの無関係な用語をリンクします。

どうすれば改善できますか?他に簡単だが信頼できる手法はありますか?

4

1 に答える 1

1

あなたはいくつかのテクニックを見るべきです

1.)ストップ ワード フィルタリング: テキスト マイニングでは、頻繁に使用される 2 つのフィルター ワードが一般的です。theaなどis。_ 定義済みの辞書があります。

2.) TF/IDF : TF/IDF は、単語がドキュメントをどれだけ分離しているかに基づいて、単語の重み付けを変更します。

3.)名前付きエンティティの認識: 目前のタスクでは、名前だけに注目するだけで十分かもしれません。名前付きエンティティ認識により、ドキュメントから名前を抽出できます

4.)線形ディリクレ配分: LDA はドキュメント内の概念を見つけます。概念とは、頻繁に一緒に現れる単語のセットです。

于 2016-01-13T19:32:52.100 に答える