問題タブ [arff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - バイグラム頻度のカウント
基本的に単語の頻度をカウントし、それを weka で使用する ARFF ファイルに挿入するコードを作成しました。バイグラム頻度、つまり単一の単語の代わりに単語のペアをカウントできるように変更したいと思いますが、私の試みはうまくいかなかったことが証明されています。
見るべきことがたくさんあることは承知していますが、これに関する助けがあれば大歓迎です。これが私のコードです:
file-format - スパースARFFファイルのWeka文字列属性
テキスト分類にWekaを使用しようとしています。この目的のために、スパースARFFデータファイル形式を使用することは理にかなっています。Weka 3.7.2を使用して、次のことを試しました。
- TextDirectoryLoaderを使用して、テキストディレクトリをInstancesオブジェクトに変換します 。
- StringToWordVectorを使用して、前のステージで生成された文字列を数値に変換します。
最初の段階はうまくいきました。第2段階で問題が発生しました。これは、 WekaのARFFファイル形式の仕様で次のように説明されています。
警告:文字列属性を持つデータセットからSparseInstanceオブジェクトを保存する際に既知の問題があります。Wekaでは、文字列と公称データ値は数値として保存されます。これらの数値は、可能な属性値の配列へのインデックスとして機能します(これは非常に効率的です)。ただし、最初の文字列値にはインデックス0が割り当てられます。これは、内部的にこの値が0として格納されることを意味します。SparseInstanceが書き込まれると、内部値が0の文字列インスタンスは出力されないため、文字列値は失われます( arffファイルが再度読み取られ、デフォルト値0は別の文字列値のインデックスであるため、属性値が変更されているように見えます)。
ARFF形式は、このソリューションを提案します。
この問題を回避するには、インデックス0にダミーの文字列値を追加します。これは、SparseInstanceオブジェクトで使用され、SparseARFFファイルとして保存される可能性のある文字列属性を宣言するたびに使用されることはありません。
私はまさにそれを行おうとしています-ダミーの文字列を追加します。これを手動で行うことができませんでした(ARFFファイルを編集することにより)。これを行った人は、すでに例を投稿できますか?これを行うプログラムセグメント、適切に変更されたARFFファイル、またはこれを行う他の方法のいずれかです。
ありがとう。
weka - ARFF(Weka)の欠落値
Wekaの分類子(決定木など)は「?」をどのように解釈しますか?(これはARFFファイルの欠落値を表します)学習段階ですか?Wekaはそれを事前定義された値(たとえば「0」または「false」)に置き換えるだけですか、それともトレーニングプロセスに何らかの影響を及ぼしますか?
java - WEKA は私の日付を SimpleDateFormat で解析します....2 時を含まない限り
次のようなデータを含む大きな ARFF ファイルがあります。
解析しやすいように、次のように 2 番目の属性を宣言しました。
Java の SimpleDateFormat を使用するパーサーは、最初の行 (およびそれに非常によく似た数百万行) では問題なく動作しますが、2 行目などの数行で停止します。時間が「02」の 1 行だけをチョークすることに気付きました。実際、2 行目は に変更すると問題なく解析され540,"2011-03-13 01:10:19.000",0
ます。謎に加えて、 a を含むいくつかの行は02
とにかくうまく解析されます。お気に入り:1,"2006-12-16 02:58:51.000",111
それで、誰かが何が起こっているのか知っていますか?何かアドバイス?前もって感謝します。
nlp - 自然言語処理のためのARFF
私は一連のレビューを取得し、WEKAで使用するためにそれらをARFF形式に変換しようとしています。残念ながら、私はフォーマットがどのように機能するかを完全に誤解しているか、すべての可能な単語の属性を持っている必要があり、次にプレゼンスインジケーターが必要です。誰かがより良い方法を知っていますか、または理想的にはサンプルARFFファイルを持っていますか?
python - pyparsing を使用したスパース ARFF の解析が間違っている
全て
単純な ARFF ファイルを解析するコードを見つけたので、データが次のようなスパース ARFF に合うように変更したい:
コードは次のとおりです。
しかし、それは機能しません
空白を識別するようにプログラムに指示する必要があると思いますが、方法がわかりません
本当にありがとう
r - Rで.arffファイルを読み取る方法は?
それを行う方法はありますか?
はい、私はRを初めて使用します。
java - wekaで分類するためのテキストを表す方法は?
wekaでテキスト分類の属性またはクラスを表す方法を教えてください。どの属性を使用して分類できますか?単語の頻度または単に単語?ARFFフォーマットの可能な構造は何でしょうか?その構造の例をいくつか教えていただけますか?
事前にどうもありがとうございました。
r - RWekaread.arffの問題
RWekaパッケージのread.arffメソッドを使用して(スパース)arffを読み取っています。ただし、次のエラーが発生します。
読み込もうとしているファイルが存在します(file.exists('myfile.arff')はTRUEを返します)。
私の1行のコードは次のとおりです。
何が起こっているのか考えてみませんか?
ありがとう。
編集1:traceback()出力
matlab - Wekaによるヒストグラムベースの画像分類
ヒストグラムベースの画像検索に関するプロジェクトを行っています。一連の画像の学習アルゴリズムを比較する必要があります。そこで、MATLABで、画像(256x256ピクセル)をHSVに変換し、それを8(H)、3(S)、3(V)に量子化し、256x256行列である加重和を作成しました。
このマトリックス(データセット内のすべての画像の)を使用してARFFファイルを作成したいのですが、この時点で立ち往生しています。誰かがそれがどのように行われなければならないかについて私を助けることができますか?