ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?
ありがとう!
ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?
ありがとう!
tfは用語の頻度 です。idfは、ドキュメントの総数を用語を含むドキュメントの数で割って、その商の対数をとることによって得られる逆のドキュメント頻度です。
ステミング効果は、同じ語幹から派生したすべての単語をグループ化することです(例:played、play、..)。頻度は単語ではなく語幹を使用して計算されるため、このグループ化により、この語幹の出現率が高くなります。たとえば、2つのドキュメントがある場合:最初のドキュメントには「play」が2回、「played」が5回含まれ、2番目のドキュメントには「play」が3回、「played」が1回含まれています。 「play」という単語の出現回数が多いため、ステミングを行うと、両方の単語がステミング後に「play」になり、最初のドキュメントが最初にステムプレイを7回含み、2番目のドキュメントがステムプレイを含みます。 4回。
ストップワードの削除に関しては、すべてのドキュメントで頻繁に見られ、いずれのキーワードとも見なされないため、シーンがないと頻繁に発生します。