search - tf-idf: それを使用すると、用語を共有する文書をそうでない文書よりも高く評価するのに役立ちますか?

翻译自：https://stackoverflow.com/questions/3857750 2010-10-04T17:46:24.480

542 次

Web サイトのカスタマイズされた検索機能に取り組んでいます。また、tf-idf のみを使用してコーパス内のドキュメントをランク付けすることで、検索語が 1 つだけのドキュメントよりも複数の検索語を含むドキュメントを重み付けするのにも役立つかどうかに興味がありました。

例: Search = "poland spring water" 理論的には、ドキュメントに「poland」が 100 回含まれ、「water」が 0 回含まれている場合、上記のクエリは (従来の tf-idf を使用して) ドキュメントの重み付けを高くします。あるいは、「ポーランド」が 10 回、「水」が 10 回含まれていると、ドキュメントの重さは重くなります。

すべてが「ポーランド」と「水」の tf-idf 値に依存することは承知していますが、理論的には公平な条件で、複数の用語が含まれている場合、アルゴリズムはドキュメントを結果の一番上に表示するのに役立ちますか?ドキュメント、またはそれは本当に用語に依存していませんか?

search - tf-idf: それを使用すると、用語を共有する文書をそうでない文書よりも高く評価するのに役立ちますか?

2 に答える 2

Related

Reference