0

私は 20NewsGroup データセットでテキスト分類を行っており、20NewsGroup_ByDate データセットを使用しました。ここで提供されている語幹の付いたドキュメントを抽出します

http://web.ist.utl.pt/~acardoso/datasets/

weka の分類に tf-idf 変換、情報ゲイン機能の選択、および Naive Bayes を適用しました。私の結果は、上記のページに記載されている結果 (82%) よりも高くなっています。私は多くのことを考え、私が犯した可能性のある間違いを検索しましたが、処理されたドキュメントを使用しているため、何も見つけることができませんでした.

tf-idf,IG と分類器を適用するだけです。予想よりも高い精度をもたらす可能性のある間違いの可能性について、洞察を提供してください。

4

0 に答える 0