問題タブ [arff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
19651 参照

weka - Arff ファイル - ヘッダーで公称値が宣言されていません。

Java プログラムを使用して .arff ファイルを生成しています。ファイルには約 600 の属性があります。

Weka Explorer でファイルを開くことができません。「ヘッダーで公称値が宣言されていません。Token[0]、626行目を読んでください。」

最初の属性行は次のとおりです: @attribute vantuono numeric
626 行目の最初の数文字は次のとおりです: 0,0,0,0,1,0,0,0,0,1,0,1...

WEKA が「0」を数値として解析できないのはなぜですか?

興味深いことに、これはこのファイルでのみ発生します。値として「0」を受け入れる数値属性を持つ他のファイルがあります。

0 投票する
1 に答える
5276 参照

weka - arff と判断できません (理由: java.io.IOException: 行末が早すぎます。トークン [EOL]、行 1182 を読んでください)

いくつかのデータがあり、それを処理して、次のように .arff ファイルを生成するように変換しています。

これは属性リストのほんの一部です。weka で arff ファイルを開く必要がありますが、件名に記載されているようにエラーがスローされます。エラーは次の行を指しています:

エラーをスローしているファイルでエラーを見つけることができません。

0 投票する
0 に答える
1110 参照

mahout - レーティングから Mahout スパース ベクトルを作成するにはどうすればよいですか?

テキストから Mahout Vector オブジェクトを作成する例があります。それは言います:

ベクトルを作成する前に、ドキュメントを SequenceFile 形式に変換する必要があります。SequenceFile は、任意のキーと値のペアを書き込むことができる Hadoop クラスです。DocumentVectorizer では、キーが一意のドキュメント ID を持つテキストである必要があり、値が UTF-8 形式のテキスト コンテンツである必要があります。

SequenceFile とは何かを知っているので、これはやや明確です。ただし、すべての Mahout アルゴリズム (クラスタリング、分類など) では、コンテンツは実際には単語 (または n-gram) のバッグです。値はスペース区切りとして扱われますか?

さらに重要なことは、実際にはテキストではないものをクラスター化したいということです。たとえば、スペース区切り形式で映画を評価したユーザーがいたとします。

映画をクラスタリングしたいとします。ユーザーを「ドキュメント」(ムービーのグループ) のように扱い、ムービーを「単語」のように扱うことができます。これらの評価をベクトル ファイルに取り込むにはどうすればよいですか? それをarffに変換し(正確な方法はまだわかりません)、Mahout のarff.vectorを使用できます。ドキュメントと単語の関連付け (またはカウント) を取得してベクトルを作成する、より単純なユーティリティはありますか?

シーケンス ファイルに入れるためだけに、たとえば 1 億の評価を ARFF としてディスクに入れる必要がなく、ベクターに入れるだけで便利です。

0 投票する
0 に答える
1669 参照

classification - Weka でのラベルなしデータの分類

私は現在、Weka でさまざまな分類子を使用しています。

私のテストデータにはラベルが付けられています。

行ごとの最後の値はクラス要素です。つまり、respond です。

しかし、ラベルのないテストデータを試してみると、たとえば:

Weka は分類を実行しますが、ラベルのない行は無視します。したがって、上記のテストには行 1 と 3 のみが含まれます。

これを回避する方法を知っている人はいますか?クラス属性をテスト ファイルで宣言する必要がありますか、それとも何か不足していますか?

モーガンさん。

0 投票する
1 に答える
1328 参照

python - Pythonのarffライブラリによって作成されたarffファイルの公称属性

Python の arff ライブラリのdumpコマンドを使用すると、次のコマンドのように、与えられた入力に従って arff ファイルを作成できます。

次のarffが得られます。

与えられたデータについて:

私の質問は次のとおりです。関連するメカニズムにhairColor、公称属性にしたいことを通知する方法、つまり、arff ヘッダーを次のようにしたいということです。

0 投票する
1 に答える
4590 参照

nlp - ラベルのないデータを無視するWeka

Weka で Naive Bayes 分類器を使用した NLP 分類プロジェクトに取り組んでいます。半教師付き機械学習を使用する予定であるため、ラベルのないデータを操作します。ラベル付けされたトレーニング データから取得したモデルを、ラベル付けされていないテスト データの独立したセットでテストすると、Weka はすべてのラベル付けされていないインスタンスを無視します。誰でもこれを解決する方法を教えてもらえますか? 誰かが以前にここでこの質問をしましたが、適切な解決策はありませんでした。サンプル テスト ファイルは次のとおりです。

0 投票する
1 に答える
5056 参照

arff - german.data ファイルを .arff ファイルに変換するにはどうすればよいですか?

ハイ

weka で使用したいので、このファイルhttp://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/を .arff ファイルに変換したいのですが、変換中にエラーが発生します。ファイル。