ユーザーが記事をアップロードするデータベースがあります。ユーザーが読んだものに応じて、Web アプリが同様のテキストを提案するアルゴリズムを作成したいと思います。
レーベンシュタイン距離のような例を見ました。しかし、これらのアルゴリズムは、記事全体ではなく文字列の距離を測定します。テキストから最も重要なキーワードを抽出する方法はありますか? 確かに、「最も重要」という言葉があいまいな言葉であることは理解しています。
他のサイトはこれをどのように管理していますか?
どうもありがとう
ユーザーが記事をアップロードするデータベースがあります。ユーザーが読んだものに応じて、Web アプリが同様のテキストを提案するアルゴリズムを作成したいと思います。
レーベンシュタイン距離のような例を見ました。しかし、これらのアルゴリズムは、記事全体ではなく文字列の距離を測定します。テキストから最も重要なキーワードを抽出する方法はありますか? 確かに、「最も重要」という言葉があいまいな言葉であることは理解しています。
他のサイトはこれをどのように管理していますか?
どうもありがとう
テキストから最も重要なキーワードを抽出する方法はありますか?
はい。基本的には、テキストからすべての単語を抽出し、単語を頻度順に並べ替え、一般的な単語辞書と照合して一般的な単語 (a、an、the など) を除外し、上位 20 個以上の単語を保存します。各記事からの頻度で。
保存するトップ ワードの数は、記事の長さとすべての記事の主題の両方に関連しています。一般的な興味のある記事には少ない単語が有効ですが、プログラミングに関する質問への回答など、特別な興味のある記事にはより多くの単語が必要です。
上位の単語の半分以上に一致する記事は、関連があると見なすことができます。関連性の程度は、一致する上位の単語の数と一致する単語の頻度によって異なります。
2 つの記事から一致した各単語の頻度を乗算し、すべての積を合計することで、関連性スコアを計算できます。スコアが高いほど、記事の関連性が高くなります。