3

初歩的な質問なので、冷静に考えてください。

私はデータ マイニングの分野に不慣れで、このトピックに頭を悩ませようとしています。現在、インスタンスをより適切に分類できるように、既存のモデルを改良しようとしています。問題は、私のモデルに約 480 の属性があることです。それらのすべてが関連しているわけではないことは確かですが、どれが本当に重要であるかを指摘するのは難しいです.

問題は有効なトレーニング セットとテスト セットがあれば、分類の質に影響を及ぼさないと思われる属性を破棄する、ある種のデータ マイニング アルゴリズムを使用できるかということです。

ウェカを使用しています。

4

4 に答える 4

1

Wekaが持っている分類アルゴリズムのいくつかを使用してテストする必要があります。

基本的な考え方は、相互検証オプションを使用することです。これにより、どのアルゴリズムが最適な正しく分類されたインスタンスの値を提供するかを確認できます。

Cross-validationオプションを使用し、 Folds 10を選択して、私のトレーニングセットの1つの例を示します。

ご覧のとおり、J48分類子を使用すると次のようになります。

Correctly Classified Instances        4310               83.2207 %
Incorrectly Classified Instances       869               16.7793 %

たとえば、NaiveBayesアルゴリズムを使用する場合は、次のようになります。

Correctly Classified Instances        1996               38.5403 %
Incorrectly Classified Instances      3183               61.4597 %

など、アルゴリズムによって値が異なります。

したがって、できるだけ多くのアルゴリズムをテストし、どれが最も適切に分類されたインスタンス/消費時間を与えるかを確認してください。

于 2013-01-09T18:38:24.430 に答える
0

OP提案に従ってコメントを回答に変換:weka3.6.6を使用する場合-モジュールエクスプローラーを選択->[属性の選択]タブに移動して[属性エバリュエーター]と[検索方法]を選択するよりも、完全なデータセットを使用するかどうかを選択できますまたはcvセット、詳細については、たとえばhttp://forums.pentaho.com/showthread.php?68687-Selecting-Attributes-with-Wekaまたはhttp://weka.wikispaces.com/Performing+attribute+selectionを参照してください。

于 2013-01-13T13:23:30.767 に答える
0

クラスタリング アルゴリズムのトピックを読んでください (ただし、トレーニング セットのみです!)

于 2013-01-09T17:51:31.887 に答える