“weka”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

10730 参照

java - wekaの視覚化タブのジッターの意味は何ですか

wekaでは、arff ファイルを読み込みます。視覚化タブを使用して、属性間の関係を表示できます。

しかし、ジッタースライダーの意味がわかりません。その目的は何ですか？

2009-08-09T16:52:36.890

0 投票する

3 に答える

1827 参照

machine-learning - 機械学習ツール Weka の使用についての質問

分類には Weka のエクスプローラー機能を使用しています。

したがって、NUMERIC 値の 2 つの機能を持つ .arff ファイルがあり、クラスはバイナリ 0 または 1 ({0,1} など) です。

サンプル：

この .arff ファイルをロードし、10 分割クロス検証 (テストファイルなし) を使用し、NaiveBayes を選択してから、データを分類すると、ラベルが正しくない 5 つ、正しくラベル付けされた 100 が得られます。ここまでは順調ですね。

ここで、.arff ファイルを大幅に変更します (フィーチャ属性に完全にランダムな値を指定します)。上記を繰り返すと、分類時にまったく同じ統計が得られます。

.arff ファイルにさらに変更を加えて、さまざまな分類アルゴリズムでこれを試しました。それでも、.arff ファイルにどのような値を指定しても、(同じアルゴリズム内で) まったく同じ統計が得られます。

ここで何か間違ったことをしていますか？

machine-learning data-mining classification weka

2009-11-27T04:58:47.040

0 投票する

3 に答える

9328 参照

filter - WEKAのリサンプルフィルター - 結果の解釈方法

私は現在、機械学習の問題に取り組んでいますが、バランスの取れていない大きなデータセットを処理する必要があります。つまり、6 つのクラス ('1'、'2'...'6') があります。残念ながら、クラス '1' では 150 の例/インスタンス、'2' では 90 のインスタンス、クラス '3' では 20 しかありません。これらのクラスには利用可能なインスタンスがないため、他のすべてのクラスは「トレーニング」できません。

これまでのところ、WEKA (私が使用している機械学習ツールキット) がこの教師付きの「リサンプル」フィルターを提供することがわかりました。このフィルターを 'noReplacement'=false および 'bialToUniformClass'=1.0 で適用すると、インスタンスの数が適切でほぼ等しいデータセットが生成されます (クラス '1'..'3' およびその他の場合)。空のまま）。

私の質問は次のとおりです。WEKAとこのフィルターは、さまざまなクラスの「新しい」/追加のインスタンスをどのように生成しますか。

ヒントや提案をお寄せいただきありがとうございます。

乾杯ジュリアン

filter machine-learning weka

2009-12-09T15:27:12.377

0 投票する

1 に答える

472 参照

java - Java プログラミングを使用してマイクロアレイデータ内の冗長なタプルを削除するにはどうすればよいですか?

MICROARRAY DATA 用のデータマイニングソフトウェアである WEKA では、既存のデータセットから冗長なタプルを削除するにはどうすればよいですか? 冗長性を取り除くコードは、JAVA である必要があります。

つまり、データセットには次のようなデータが含まれます。

ここで、タプル 1,4,5 は冗長です。

コードは、次の REDUNDANCY REMOVED データセットを返す必要があります...

java weka redundancy

2010-01-12T04:39:03.037

0 投票する

4 に答える

13954 参照

normalization - Weka 正規化列

14 個の数値列を含む ARFF ファイルがあります。各列で個別に正規化を実行したい、つまり、各列の値を ( actual_value - min(this_column)) / (max(this_column) - min(this_column)) に変更します。したがって、列のすべての値は範囲内になります[0, 1]。列の最小値と最大値は、別の列のものとは異なる場合があります。

Weka フィルターでこれを行うにはどうすればよいですか?

ありがとう

normalization weka

2010-02-16T07:21:17.957

0 投票する

3 に答える

19771 参照

machine-learning - WEKA チュートリアル / 初心者向けの例

この回答のフォローアップとして、 Weka ツールキットを使用したデータマイニングの優れた (さらに重要なことに、理解しやすい) チュートリアルや例を知っている人がいるかどうかを尋ねたいと思います。

データマイニングについて初めて聞いたときから、データマイニングに非常に興味を持っていました。また、自分のデータを使っていくつかの実験を行いたいと思っており、すでに 4 つ購入しました。本と私が特に興味深いと思ったのは、次の2つです。

データマイニング http://ecx.images-amazon.com/images/I/61DhYb1Z6QL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

最後のものは Weka と同じ作者によって書かれており、多くの例が含まれていますが、それでもロジック、特に数学を理解するのは少し難しいと感じました. 私の数学のスキルは現在非常に大雑把です。今年大学に行く予定であり、関連する数学を学び、よりよく理解できるようになることを願っていますが、それまではデータマイニングの練習をしたいと思っています.

Weka ツールキットを使い始めるために読むことができる、サンプルデータを含む段階的なチュートリアルはありますか?

machine-learning data-mining weka

2010-02-19T00:07:19.757

0 投票する

2 に答える

6724 参照

classification - 適切な分類アルゴリズムを選択してください。線形または非線形？

この質問は少し注意が必要です。多分誰かがこの質問に答えるアプローチを知っています。それが何であるかわからないデータセット（トレーニングデータ）があると想像してください。このデータを分類するための分類アルゴリズムを推測するために、トレーニングデータのどの機能を調べますか？非線形分類アルゴリズムを使用するか線形分類アルゴリズムを使用するかについて、何か言うことができますか？

ちなみに、私はWEKAを使ってデータを分析しています。

助言がありますか？ありがとうございました。

classification weka

2010-03-10T01:58:47.787

0 投票する

1 に答える

2107 参照

data-mining - RBFKernel による SMO の最適化 (C およびガンマ)

サポートベクターマシンで RBF カーネルを使用する場合、C と γ の 2 つのパラメーターがあります。1 つの問題に対してどの C と γ が最適かは事前にわかりません。したがって、何らかのモデル選択 (パラメータ検索) を行う必要があります。目標は、適切な (C;γ) を識別して、分類器が未知のデータ (つまり、テストデータ) を正確に予測できるようにすることです。

weka.classifiers.meta.GridSearchパラメータのペアを調整するためのメタ分類子です。ただし、完了するまでに時間がかかるようです (データセットがかなり大きい場合)。このタスクを完了するのに必要な時間を短縮するために何をすることをお勧めしますか?

A User's Guide to Support Vector Machines によると:

C : ソフトマージン定数。C の値を小さくすると、境界に近い点を無視できるようになり、マージンが増加します。

γ> 0 は Gaussian の幅を制御するパラメータです

data-mining classification svm pentaho weka

heimcomputer

2010-03-10T19:22:16.000

0 投票する

1 に答える

992 参照

debugging - Wekaをデバッグする方法は？

Wekaに新しいフィルターを実装しようとしています。wekaでフィルターを実行しようとすると例外が発生するため、コードの何が問題になっているのかを確認できるように、wekaをデバッグできるようにするにはどうすればよいですか。現在使用しています

変数の値を出力し、問題を見つけようとしますが、jarファイルの生成、正しい場所へのコピー、wekaの再起動などに多くの時間を浪費しています...など...

よろしくお願いします。

debugging weka

2010-04-01T21:12:28.467

0 投票する

1 に答える

2152 参照

machine-learning - 分類問題の偽のデータを生成するための最良の方法は何ですか？

私はプロジェクトに取り組んでおり、ユーザーのキーストローク時間データのサブセットを持っています。これは、ユーザーがn回試行することを意味し、これらの記録された試行時間データをさまざまな種類の分類アルゴリズムで使用して、将来のユーザーの試行で次のことを確認します。ログインプロセスは、ユーザーまたは他の人によって行われます。（簡単に言えば、これはバイオメトリクスだと言えます）

ユーザーログインの試行プロセスは3回ありますが、もちろんこれは無限データのサブセットです。

これまでは簡単な分類問題でしたが、WEKAを使用することにしましたが、私が理解している限り、分類アルゴリズムにフィードするために偽のデータを作成する必要があります。ユーザーの測定試行回数は1で、偽のデータは0になります。

いくつかの最適化アルゴリズムを使用できますか？または、この偽のデータを作成して最小の誤検知を取得する方法はありますか？

ありがとう

machine-learning classification pattern-recognition biometrics weka

2010-04-10T00:35:26.067

問題タブ [weka]

Reference