問題タブ [weka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - wekaの視覚化タブのジッターの意味は何ですか
wekaでは、arff ファイルを読み込みます。視覚化タブを使用して、属性間の関係を表示できます。
しかし、ジッタースライダーの意味がわかりません。その目的は何ですか?
machine-learning - 機械学習ツール Weka の使用についての質問
分類には Weka のエクスプローラー機能を使用しています。
したがって、NUMERIC 値の 2 つの機能を持つ .arff ファイルがあり、クラスはバイナリ 0 または 1 ({0,1} など) です。
サンプル:
この .arff ファイルをロードし、10 分割クロス検証 (テスト ファイルなし) を使用し、NaiveBayes を選択してから、データを分類すると、ラベルが正しくない 5 つ、正しくラベル付けされた 100 が得られます。ここまでは順調ですね。
ここで、.arff ファイルを大幅に変更します (フィーチャ属性に完全にランダムな値を指定します)。上記を繰り返すと、分類時にまったく同じ統計が得られます。
.arff ファイルにさらに変更を加えて、さまざまな分類アルゴリズムでこれを試しました。それでも、.arff ファイルにどのような値を指定しても、(同じアルゴリズム内で) まったく同じ統計が得られます。
ここで何か間違ったことをしていますか?
filter - WEKAのリサンプルフィルター - 結果の解釈方法
私は現在、機械学習の問題に取り組んでいますが、バランスの取れていない大きなデータセットを処理する必要があります。つまり、6 つのクラス ('1'、'2'...'6') があります。残念ながら、クラス '1' では 150 の例/インスタンス、'2' では 90 のインスタンス、クラス '3' では 20 しかありません。これらのクラスには利用可能なインスタンスがないため、他のすべてのクラスは「トレーニング」できません。
これまでのところ、WEKA (私が使用している機械学習ツールキット) がこの教師付きの「リサンプル」フィルターを提供することがわかりました。このフィルターを 'noReplacement'=false および 'bialToUniformClass'=1.0 で適用すると、インスタンスの数が適切でほぼ等しいデータ セットが生成されます (クラス '1'..'3' およびその他の場合)。空のまま)。
私の質問は次のとおりです。WEKAとこのフィルターは、さまざまなクラスの「新しい」/追加のインスタンスをどのように生成しますか。
ヒントや提案をお寄せいただきありがとうございます。
乾杯ジュリアン
java - Java プログラミングを使用してマイクロアレイ データ内の冗長なタプルを削除するにはどうすればよいですか?
MICROARRAY DATA 用のデータ マイニング ソフトウェアである WEKA では、既存のデータ セットから冗長なタプルを削除するにはどうすればよいですか? 冗長性を取り除くコードは、JAVA である必要があります。
つまり、データ セットには次のようなデータが含まれます。
ここで、タプル 1,4,5 は冗長です。
コードは、次の REDUNDANCY REMOVED データ セットを返す必要があります...
normalization - Weka 正規化列
14 個の数値列を含む ARFF ファイルがあります。各列で個別に正規化を実行したい、つまり、各列の値を ( actual_value - min(this_column)) / (max(this_column) - min(this_column)
) に変更します。したがって、列のすべての値は範囲内になります[0, 1]
。列の最小値と最大値は、別の列のものとは異なる場合があります。
Weka フィルターでこれを行うにはどうすればよいですか?
ありがとう
machine-learning - WEKA チュートリアル / 初心者向けの例
この回答のフォローアップとして、 Weka ツールキットを使用したデータ マイニングの優れた (さらに重要なことに、理解しやすい) チュートリアルや例を知っている人がいるかどうかを尋ねたいと思います。
データ マイニングについて初めて聞いたときから、データ マイニングに非常に興味を持っていました。また、自分のデータを使っていくつかの実験を行いたいと思っており、すでに 4 つ購入しました。本と私が特に興味深いと思ったのは、次の2つです。
データマイニング http://ecx.images-amazon.com/images/I/61DhYb1Z6QL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg
最後のものは Weka と同じ作者によって書かれており、多くの例が含まれていますが、それでもロジック、特に数学を理解するのは少し難しいと感じました. 私の数学のスキルは現在非常に大雑把です。今年大学に行く予定であり、関連する数学を学び、よりよく理解できるようになることを願っていますが、それまではデータマイニングの練習をしたいと思っています.
Weka ツールキットを使い始めるために読むことができる、サンプル データを含む段階的なチュートリアルはありますか?
classification - 適切な分類アルゴリズムを選択してください。線形または非線形?
この質問は少し注意が必要です。多分誰かがこの質問に答えるアプローチを知っています。それが何であるかわからないデータセット(トレーニングデータ)があると想像してください。このデータを分類するための分類アルゴリズムを推測するために、トレーニングデータのどの機能を調べますか?非線形分類アルゴリズムを使用するか線形分類アルゴリズムを使用するかについて、何か言うことができますか?
ちなみに、私はWEKAを使ってデータを分析しています。
助言がありますか?ありがとうございました。
data-mining - RBFKernel による SMO の最適化 (C およびガンマ)
サポート ベクター マシンで RBF カーネルを使用する場合、C と γ の 2 つのパラメーターがあります。1 つの問題に対してどの C と γ が最適かは事前にわかりません。したがって、何らかのモデル選択 (パラメータ検索) を行う必要があります。目標は、適切な (C;γ) を識別して、分類器が未知のデータ (つまり、テスト データ) を正確に予測できるようにすることです。
weka.classifiers.meta.GridSearch
パラメータのペアを調整するためのメタ分類子です。ただし、完了するまでに時間がかかるようです (データセットがかなり大きい場合)。このタスクを完了するのに必要な時間を短縮するために何をすることをお勧めしますか?
A User's Guide to Support Vector Machines によると:
C : ソフトマージン定数。C の値を小さくすると、境界に近い点を無視できるようになり、マージンが増加します。
γ> 0 は Gaussian の幅を制御するパラメータです
debugging - Wekaをデバッグする方法は?
Wekaに新しいフィルターを実装しようとしています。wekaでフィルターを実行しようとすると例外が発生するため、コードの何が問題になっているのかを確認できるように、wekaをデバッグできるようにするにはどうすればよいですか。現在使用しています
変数の値を出力し、問題を見つけようとしますが、jarファイルの生成、正しい場所へのコピー、wekaの再起動などに多くの時間を浪費しています...など...
よろしくお願いします。
machine-learning - 分類問題の偽のデータを生成するための最良の方法は何ですか?
私はプロジェクトに取り組んでおり、ユーザーのキーストローク時間データのサブセットを持っています。これは、ユーザーがn回試行することを意味し、これらの記録された試行時間データをさまざまな種類の分類アルゴリズムで使用して、将来のユーザーの試行で次のことを確認します。ログインプロセスは、ユーザーまたは他の人によって行われます。(簡単に言えば、これはバイオメトリクスだと言えます)
ユーザーログインの試行プロセスは3回ありますが、もちろんこれは無限データのサブセットです。
これまでは簡単な分類問題でしたが、WEKAを使用することにしましたが、私が理解している限り、分類アルゴリズムにフィードするために偽のデータを作成する必要があります。ユーザーの測定試行回数は1で、偽のデータは0になります。
いくつかの最適化アルゴリズムを使用できますか?または、この偽のデータを作成して最小の誤検知を取得する方法はありますか?
ありがとう