java - Weka で重要な属性を抽出する

Question

初歩的な質問なので、冷静に考えてください。

私はデータマイニングの分野に不慣れで、このトピックに頭を悩ませようとしています。現在、インスタンスをより適切に分類できるように、既存のモデルを改良しようとしています。問題は、私のモデルに約 480 の属性があることです。それらのすべてが関連しているわけではないことは確かですが、どれが本当に重要であるかを指摘するのは難しいです.

問題は、有効なトレーニングセットとテストセットがあれば、分類の質に影響を及ぼさないと思われる属性を破棄する、ある種のデータマイニングアルゴリズムを使用できるかということです。

ウェカを使用しています。

score 1 · Accepted Answer

Wekaが持っている分類アルゴリズムのいくつかを使用してテストする必要があります。

基本的な考え方は、相互検証オプションを使用することです。これにより、どのアルゴリズムが最適な正しく分類されたインスタンスの値を提供するかを確認できます。

Cross-validationオプションを使用し、 Folds 10を選択して、私のトレーニングセットの1つの例を示します。

ご覧のとおり、J48分類子を使用すると次のようになります。

Correctly Classified Instances        4310               83.2207 %
Incorrectly Classified Instances       869               16.7793 %

たとえば、NaiveBayesアルゴリズムを使用する場合は、次のようになります。

Correctly Classified Instances        1996               38.5403 %
Incorrectly Classified Instances      3183               61.4597 %

など、アルゴリズムによって値が異なります。

したがって、できるだけ多くのアルゴリズムをテストし、どれが最も適切に分類されたインスタンス/消費時間を与えるかを確認してください。

score 0 · Accepted Answer

OP提案に従ってコメントを回答に変換：weka3.6.6を使用する場合-モジュールエクスプローラーを選択->[属性の選択]タブに移動して[属性エバリュエーター]と[検索方法]を選択するよりも、完全なデータセットを使用するかどうかを選択できますまたはcvセット、詳細については、たとえばhttp://forums.pentaho.com/showthread.php?68687-Selecting-Attributes-with-Wekaまたはhttp://weka.wikispaces.com/Performing+attribute+selectionを参照してください。

score 0 · Accepted Answer

クラスタリングアルゴリズムのトピックを読んでください (ただし、トレーニングセットのみです!)

java - Weka で重要な属性を抽出する

4 に答える 4

Related

Reference