問題タブ [arff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - Arff ファイル - ヘッダーで公称値が宣言されていません。
Java プログラムを使用して .arff ファイルを生成しています。ファイルには約 600 の属性があります。
Weka Explorer でファイルを開くことができません。「ヘッダーで公称値が宣言されていません。Token[0]、626行目を読んでください。」
最初の属性行は次のとおりです: @attribute vantuono numeric
626 行目の最初の数文字は次のとおりです: 0,0,0,0,1,0,0,0,0,1,0,1...
WEKA が「0」を数値として解析できないのはなぜですか?
興味深いことに、これはこのファイルでのみ発生します。値として「0」を受け入れる数値属性を持つ他のファイルがあります。
weka - arff と判断できません (理由: java.io.IOException: 行末が早すぎます。トークン [EOL]、行 1182 を読んでください)
いくつかのデータがあり、それを処理して、次のように .arff ファイルを生成するように変換しています。
これは属性リストのほんの一部です。weka で arff ファイルを開く必要がありますが、件名に記載されているようにエラーがスローされます。エラーは次の行を指しています:
エラーをスローしているファイルでエラーを見つけることができません。
mahout - レーティングから Mahout スパース ベクトルを作成するにはどうすればよいですか?
テキストから Mahout Vector オブジェクトを作成する例があります。それは言います:
ベクトルを作成する前に、ドキュメントを SequenceFile 形式に変換する必要があります。SequenceFile は、任意のキーと値のペアを書き込むことができる Hadoop クラスです。DocumentVectorizer では、キーが一意のドキュメント ID を持つテキストである必要があり、値が UTF-8 形式のテキスト コンテンツである必要があります。
SequenceFile とは何かを知っているので、これはやや明確です。ただし、すべての Mahout アルゴリズム (クラスタリング、分類など) では、コンテンツは実際には単語 (または n-gram) のバッグです。値はスペース区切りとして扱われますか?
さらに重要なことは、実際にはテキストではないものをクラスター化したいということです。たとえば、スペース区切り形式で映画を評価したユーザーがいたとします。
映画をクラスタリングしたいとします。ユーザーを「ドキュメント」(ムービーのグループ) のように扱い、ムービーを「単語」のように扱うことができます。これらの評価をベクトル ファイルに取り込むにはどうすればよいですか? それをarffに変換し(正確な方法はまだわかりません)、Mahout のarff.vectorを使用できます。ドキュメントと単語の関連付け (またはカウント) を取得してベクトルを作成する、より単純なユーティリティはありますか?
シーケンス ファイルに入れるためだけに、たとえば 1 億の評価を ARFF としてディスクに入れる必要がなく、ベクターに入れるだけで便利です。
classification - Weka でのラベルなしデータの分類
私は現在、Weka でさまざまな分類子を使用しています。
私のテストデータにはラベルが付けられています。
行ごとの最後の値はクラス要素です。つまり、respond です。
しかし、ラベルのないテストデータを試してみると、たとえば:
Weka は分類を実行しますが、ラベルのない行は無視します。したがって、上記のテストには行 1 と 3 のみが含まれます。
これを回避する方法を知っている人はいますか?クラス属性をテスト ファイルで宣言する必要がありますか、それとも何か不足していますか?
モーガンさん。
python - Pythonのarffライブラリによって作成されたarffファイルの公称属性
Python の arff ライブラリのdump
コマンドを使用すると、次のコマンドのように、与えられた入力に従って arff ファイルを作成できます。
次のarffが得られます。
与えられたデータについて:
私の質問は次のとおりです。関連するメカニズムにhairColor
、公称属性にしたいことを通知する方法、つまり、arff ヘッダーを次のようにしたいということです。
nlp - ラベルのないデータを無視するWeka
Weka で Naive Bayes 分類器を使用した NLP 分類プロジェクトに取り組んでいます。半教師付き機械学習を使用する予定であるため、ラベルのないデータを操作します。ラベル付けされたトレーニング データから取得したモデルを、ラベル付けされていないテスト データの独立したセットでテストすると、Weka はすべてのラベル付けされていないインスタンスを無視します。誰でもこれを解決する方法を教えてもらえますか? 誰かが以前にここでこの質問をしましたが、適切な解決策はありませんでした。サンプル テスト ファイルは次のとおりです。
arff - german.data ファイルを .arff ファイルに変換するにはどうすればよいですか?
ハイ
weka で使用したいので、このファイルhttp://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/を .arff ファイルに変換したいのですが、変換中にエラーが発生します。ファイル。