問題タブ [weka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
command-line - コマンドラインからwekaを実行 - クラスNaiveBayesが見つかりません
コマンドラインからWeka分類を実行しようとしていますが、私のコード:
エラーメッセージが表示されます:
「メイン クラスが見つかりませんでした: weka.classifiers.bayes.NaiveBayes。プログラムは終了します。」
weka.jar を含むディレクトリでコマンドを実行しています。分類器が見つからないのはなぜですか?
java - Java アプリケーションでシリアライズされた分類子を使用して新しいインスタンスを分類する方法
シリアル化された分類子を使用して新しいインスタンスを分類したいと考えています。このクラスを見つけましたが、理解できません。
arg[2]
= クラス属性名およびarg[3]
= 元のデータセットから予測するインスタンスの 1 ベースのインデックス
このクラスのコードは次のとおりです。
前もって感謝します。
data-mining - Weka でブートストラップを実行して外れ値を削除するにはどうすればよいですか?
私は Weka API といくつかのサンプル データ セットをいじり始めたばかりですが、少しずつ理解したいと思っていました。Weka で 0.632 ブートストラップを実行する方法を知っている人はいますか?
また、外れ値を検出するにはどうすればよいですか (これを行うにはさまざまな方法があることを理解しています...)。
また、外れ値が特定されたら、たとえば 10% の外れ値をどのように削除しますか?
どんな助けでも大歓迎です!
乾杯、
ニール
java - 単純な K-Means は iris.arff を処理しません
私は以下にこのクラスを持っています.wikiと論文で与えられた例を考慮してそれを構築します.なぜSympleKMeansはデータを処理できないのですか? クラスはデータソースのダドスを出力できるため、ファイルの処理に問題はなく、エラーはビルドにあります。
エラー:
java - CまたはC++で使用するためにWekaモデルをエクスポートする
私は、データ探索にWekaを使用し、問題に最適な分類アルゴリズムを決定することに大きな成功を収めてきました。動作するトレーニング済みモデルができたので、それを残りのC++プログラムに統合したいと思います。残念ながら、これは難しい作業のようです。分類子をJavaオブジェクトファイルとしてエクスポートするためのネイティブサポートを持っているのはWekaだけです。Wekaでトレーニングされたモデルパラメータを便利な形式でエクスポートする方法を見つけた人はいますか?
J48デシジョンツリーからC/C++コードを生成するユーティリティがあれば特に興味があります。
java - WEKAにCUREクラスタリングアルゴリズムを追加
CURE クラスタリングを実行する Java プログラムを作成しました。このプログラムをwekaにクラスタリングアルゴリズムとして追加し、クラスタリングを可視化したいと考えています。weka で既に実装した人はいますか?そのリンクは非常に役立ちます。どうすればそれを進めることができますか?
file-format - スパースARFFファイルのWeka文字列属性
テキスト分類にWekaを使用しようとしています。この目的のために、スパースARFFデータファイル形式を使用することは理にかなっています。Weka 3.7.2を使用して、次のことを試しました。
- TextDirectoryLoaderを使用して、テキストディレクトリをInstancesオブジェクトに変換します 。
- StringToWordVectorを使用して、前のステージで生成された文字列を数値に変換します。
最初の段階はうまくいきました。第2段階で問題が発生しました。これは、 WekaのARFFファイル形式の仕様で次のように説明されています。
警告:文字列属性を持つデータセットからSparseInstanceオブジェクトを保存する際に既知の問題があります。Wekaでは、文字列と公称データ値は数値として保存されます。これらの数値は、可能な属性値の配列へのインデックスとして機能します(これは非常に効率的です)。ただし、最初の文字列値にはインデックス0が割り当てられます。これは、内部的にこの値が0として格納されることを意味します。SparseInstanceが書き込まれると、内部値が0の文字列インスタンスは出力されないため、文字列値は失われます( arffファイルが再度読み取られ、デフォルト値0は別の文字列値のインデックスであるため、属性値が変更されているように見えます)。
ARFF形式は、このソリューションを提案します。
この問題を回避するには、インデックス0にダミーの文字列値を追加します。これは、SparseInstanceオブジェクトで使用され、SparseARFFファイルとして保存される可能性のある文字列属性を宣言するたびに使用されることはありません。
私はまさにそれを行おうとしています-ダミーの文字列を追加します。これを手動で行うことができませんでした(ARFFファイルを編集することにより)。これを行った人は、すでに例を投稿できますか?これを行うプログラムセグメント、適切に変更されたARFFファイル、またはこれを行う他の方法のいずれかです。
ありがとう。
weka - ARFF(Weka)の欠落値
Wekaの分類子(決定木など)は「?」をどのように解釈しますか?(これはARFFファイルの欠落値を表します)学習段階ですか?Wekaはそれを事前定義された値(たとえば「0」または「false」)に置き換えるだけですか、それともトレーニングプロセスに何らかの影響を及ぼしますか?
machine-learning - WEKA:複数の属性範囲をフィルタリングする方法は?
これは、wekaで属性範囲を選択するために私が通常行うことです
ここで、属性フィールド4も削除する必要がありますが、options [1]でこれを指定するにはどうすればよいですか?
ありがとう
java - WEKA は私の日付を SimpleDateFormat で解析します....2 時を含まない限り
次のようなデータを含む大きな ARFF ファイルがあります。
解析しやすいように、次のように 2 番目の属性を宣言しました。
Java の SimpleDateFormat を使用するパーサーは、最初の行 (およびそれに非常によく似た数百万行) では問題なく動作しますが、2 行目などの数行で停止します。時間が「02」の 1 行だけをチョークすることに気付きました。実際、2 行目は に変更すると問題なく解析され540,"2011-03-13 01:10:19.000",0
ます。謎に加えて、 a を含むいくつかの行は02
とにかくうまく解析されます。お気に入り:1,"2006-12-16 02:58:51.000",111
それで、誰かが何が起こっているのか知っていますか?何かアドバイス?前もって感謝します。