1

ドキュメントを分類するために weka SMO 分類器を使用しています。カーネル、トレランスなど、利用可能な smo 用の多くのパラメーターがあります。さまざまなパラメーターを使用してテストしましたが、大きなデータ セットで良い結果が得られませんでした。

90 を超えるカテゴリの場合、20% のドキュメントのみが正しく分類されます。

SMO で最高のパフォーマンスを得るために最適なパラメーターのセットを誰か教えてください。

4

1 に答える 1

3

ここでの主な問題は、分類自体ではなく、適切な機能の選択です。生のHTMLを使用すると、非常に大きなノイズが発生し、分類結果が非常に悪くなります。したがって、良い結果を得るには、次のようにします。

  1. 関連するテキストを抽出します。HTMLタグを削除するだけでなく、アイテムを説明するテキストを正確に取得します。
  2. キーワードの辞書を作成します。例:カプチーノ、ラテ、白米など。
  3. ステミングまたはレンマ化を使用して単語の基本形を取得し、たとえば「cotton」と「cottons」を2つの異なる単語として数えないようにします。
  4. テキストから特徴ベクトルを作成します。属性(機能名)は、辞書のすべての単語である必要があります。値は、binary(テキスト内で単語が出現する場合は1、それ以外の場合は0)、integer(テキスト内で問題の単語が出現する数)、tf-idf(テキストの長さが非常に異なる場合はこれを使用)などです。
  5. そして、これらすべてのステップの後でのみ、classiferを使用できます。

ここでは、おそらく分類子タイプは大きな役割を果たしません。辞書ベースの機能は、通常、使用されている分類手法に関係なく、非常に正確な結果をもたらします。SVM(SMO)、Naive Bayes、ANN、さらにはkNNを使用できます。より洗練された方法には、カテゴリ階層の作成が含まれます。たとえば、カテゴリ「コーヒー」はカテゴリ「飲み物」に含まれ、カテゴリ「飲み物」はカテゴリ「食品」の一部になります。

于 2012-08-31T15:00:52.287 に答える