では、私が行ったことを説明してみましょう。そうすれば、私が求めていることがより明確になることを願っています。私はドキュメントを分析し、インデックス全体では珍しいにもかかわらず、一部のドキュメントで頻繁に出てくる単語に基づいてスコアを付けようとしています。これまでのところ、かなり興味深い結果がいくつか得られており、特定のドキュメントの各用語の tf と idf を確認できます。
ドキュメント全体にスコアを付けるために、tf-idf 関連の何かをしたいのですが、ドキュメント内のすべての用語を使用したくありません。現在、私はいくつかのフィルターをハードコードして、過度に一般的な単語 (idf が低すぎて私にとって重要ではない単語) と、過度に一般的でない単語 (idf スコアが非常に高い単語。私の経験では、通常はタイプミスです) を取り除きました。
IDF の外れ値を動的に除外する良い方法はありますか?
それ以外の:
if (idf > x && idf < y)
include the word
私は次のようなことをしたい:
if (idf is in the 60th percentile of idfs for the index)
include it
それが最善の方法かもしれませんが、他に考えられる解決策があれば教えてください。よろしくお願いします。