ドキュメントを分類するために weka SMO 分類器を使用しています。カーネル、トレランスなど、利用可能な smo 用の多くのパラメーターがあります。さまざまなパラメーターを使用してテストしましたが、大きなデータ セットで良い結果が得られませんでした。
90 を超えるカテゴリの場合、20% のドキュメントのみが正しく分類されます。
SMO で最高のパフォーマンスを得るために最適なパラメーターのセットを誰か教えてください。
ドキュメントを分類するために weka SMO 分類器を使用しています。カーネル、トレランスなど、利用可能な smo 用の多くのパラメーターがあります。さまざまなパラメーターを使用してテストしましたが、大きなデータ セットで良い結果が得られませんでした。
90 を超えるカテゴリの場合、20% のドキュメントのみが正しく分類されます。
SMO で最高のパフォーマンスを得るために最適なパラメーターのセットを誰か教えてください。
ここでの主な問題は、分類自体ではなく、適切な機能の選択です。生のHTMLを使用すると、非常に大きなノイズが発生し、分類結果が非常に悪くなります。したがって、良い結果を得るには、次のようにします。
ここでは、おそらく分類子タイプは大きな役割を果たしません。辞書ベースの機能は、通常、使用されている分類手法に関係なく、非常に正確な結果をもたらします。SVM(SMO)、Naive Bayes、ANN、さらにはkNNを使用できます。より洗練された方法には、カテゴリ階層の作成が含まれます。たとえば、カテゴリ「コーヒー」はカテゴリ「飲み物」に含まれ、カテゴリ「飲み物」はカテゴリ「食品」の一部になります。