ドキュメントの長さが非常に異なる場合のtfグレードの正規化についてWebを検索しました(たとえば、ドキュメントの長さが500ワードから2500ワードまでさまざまです)
私が見つけた唯一の正規化は、用語の頻度をドキュメントの長さで分割することについて話しているため、ドキュメントの長さに意味がありません。
ただし、この方法は tf の正規化には非常に適していません。存在する場合、各ドキュメントの tf グレードに非常に大きな偏りが生じます (すべてのドキュメントがほぼ同じ辞書から構築されている場合を除きます。これは、tf-idf を使用する場合には当てはまりません)。
たとえば、2 つのドキュメントを考えてみましょう。1 つは 100 個の一意の単語で構成され、もう 1 つは 1000 個の一意の単語で構成されています。doc1 の各単語の tf は 0.01 ですが、doc2 の各単語の tf は 0.001 です。
これにより、単語を doc2 よりも doc1 に一致させると、tf-idf グレードが自動的に大きくなります。
より適切な正規化式の提案はありますか?
ありがとうございました
編集 私はまた、各ドキュメントのドキュメントの最大用語頻度で用語頻度を分割する必要があることを示す方法を見ましたが、これも私の問題を解決していません
私が考えていたのは、すべてのドキュメントから最大用語頻度を計算し、各用語頻度を最大で割ってすべての用語を正規化することです
あなたの考えを知りたいです