特定のコーパスのtf-idf 関数を評価することができました。各ドキュメントのストップワードと最適な単語を見つけるにはどうすればよいですか? 特定の単語とドキュメントの tf-idf が低いということは、そのドキュメントを選択するのに適した単語ではないことを意味することを理解しています。
2 に答える
ストップ ワードは、ドキュメント全体で非常に一般的に出現する単語であるため、代表性が失われます。これを観察する最善の方法は、用語が出現するドキュメントの数を測定し、それらの 50% 以上に出現するもの、または上位 500 個、または調整が必要な何らかの種類のしきい値をフィルター処理することです。
ドキュメント内の最良の (より代表的な) 用語は、より高い tf-idf を持つ用語です。これらの用語はドキュメント内では一般的ですが、コレクション内ではまれであるためです。
簡単なメモとして、@Kevin が指摘したように、コレクション内の非常に一般的な用語 (つまり、ストップワード) はとにかく非常に低い tf-idf を生成します。ただし、それらは一部の計算を変更するため、純粋なノイズであると仮定すると、これは正しくありません (タスクによっては正しくない場合があります)。さらに、それらが含まれている場合、アルゴリズムはわずかに遅くなります。
編集: @FelipeHammel が言うように、IDF (順序を逆にすることを忘れないでください) を df に (反比例して) 比例する尺度として直接使用できます。これは、ランク付けの目的と完全に同等であり、上位「k」個の用語を選択することになります。ただし、比率に基づいて選択するために使用することはできません (たとえば、ドキュメントの 50% 以上に出現する単語)。ただし、単純なしきい値処理で修正されます (つまり、idf が特定の値よりも低い用語を選択する)。 . 一般的には一定数の用語が使用されます。
これが役立つことを願っています。