95 のドキュメントから取得したキーワードのリストがあります。それらの重要度をランク付けしたいのですが、キーワードが表示されているドキュメントの数と、すべてのドキュメントの中でのキーワードの最大頻度しかありません。役立つランキング式を探しています。現時点ではIDFを使用していますが、より良い式があれば知りたいです。
2 に答える
TF-IDF は間違いなく優れたベースであり、実装も簡単です。
ドキュメント内の用語の位置など、他のバイアスを追加することも非常に一般的です。ドキュメントの冒頭またはタイトルにある用語は、途中または最後にある用語よりも関連性が高い傾向があります。
ただし、アルゴリズムとそのバイアスの選択は、ドキュメントの性質にも依存することに留意する必要があります。たとえば、長いドキュメント (研究論文や本など) には位置バイアスが必要ですが、必ずしもニュース記事ではありません。「IDF」メジャーについても同じことが言えます。ドキュメントと同様のタイプのコンテンツを持つドキュメントの大規模なコーパスで計算する必要があります。たとえば、ドキュメントが半導体に関する研究論文である場合、「テレビと映画」コーパスで関連性スコアを計算したくありません。
私の2セント。
単語の頻度は、テレビや映画の最も頻繁な単語や他の多くの単語に加えて、最も重要でトップの単語に基づく多くの種類のリストを持つウィキショナリー頻度リストによって、英語 (および他の多くの言語) で最も重要な単語をリストすることによって既に行われています.
単語ランキングに基づいたアルゴリズムを実行したい場合は、 TF-IDFから遠く離れないことをお勧めします。
ここでは、潜在的なセマンティック インデックス作成アルゴリズムを見つけることができます。
それがあなたが必要としていたものであることを願っています。