問題タブ [svmlight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - パフォーマンス SVMlight マルチラベル分類 (特徴: 1000)
現在、マルチラベル分類に取り組んでいます。分類器として SVMlight を使用し、マルチラベル問題を 2 値化しました。つまり、私の場合、1000 回以上の分類が実行されます。
機能サイズを 1000 に固定しています。モデルのトレーニングには 3 日以上かかります (2 GHz Intel Core 2 Duo、8 GB)。そんなに時間がかかるのが一般的かどうか、またはパフォーマンスを向上させる方法について何かアドバイスをもらえますか? 高性能機への変更は大きな効果があると思いますか?
前もって感謝します!
machine-learning - svm_light エラー "機能は昇順でなければなりません"
からの出力svm_learn train.dat model.out
なんらかの理由で、svm_light は約 500 行ごとにフィーチャーの順序に問題があります。機能を並べ替え機能にかけましたが、なぜ失敗するのかわかりません。
train.dat
これは、問題のある行 (行 4) 周辺の私のファイルからの抜粋です。
python - svmLight 形式での各項目の意味
svmLight データ形式で各部分が何を意味するかについて、私は非常に混乱しています。例えば:
(ラベル/ターゲット、[(機能、値)、...]、クエリ ID)
ラベルはデータのランクを意味し、クエリ ID はオブジェクトの ID ですか?
例: 次の項目の場合:
2 qid:1 1:4.000000 2:2.772589 3:0.266667 4:0.258154 5:37.330565 6:11.431241 7:37.307017 8:1.213630 9:21.342267 10:10.842279 11:15.634736 12:2.749495 13:-39.467448 14:-37.791635 15: -38.002289 16:14.000000 17:5.634790 18:0.063927 19:0.063290 20:28.303065 21:9.340024 22:24.809801 23:0.231553 24:52.396216 25:1.692954 26:16.619600 27:2.810583 28:-45.733775 29:-44.612550 30:-44.823263 31:18.000000 32:6.579251 33:0.076923 34:0.076079 35:27.701632 36:9.139690 37:23.819476 38:0.277200 39:67.283604 40:1.847508 41:19.559974 42:2.973485 43:-44.687666 44:-43.467574 45:-43.302044 #docid = 346319
2はオブジェクトのランク/目標値を意味しますか? では、ファイルの qid または docid は何を意味するのでしょうか?
ありがとうございました!
azure - Azure Machine Learning Web サービスの入力データの問題
例として Azure ML Web サービスを作成しましたが、Web サービスのデプロイに関して不明なエラーに直面しています。エラーは説明なしで発生するため、追跡するのは困難です。
スタジオ内で実験を行ったところ、実験は問題なく実行されました。ただし、webservice にデプロイすると、スタジオと同じ入力でテスト関数が失敗しました。
また、サービスのサンプルを公開して、問題が何であるかを誰かが確認できるかどうかを確認しました.
https://gallery.cortanaintelligence.com/Experiment/mywebservice-1
サービスに関する情報:
このサービスは、svmlight 形式のスパース特徴ベクトルを表す文字列として入力を受け取ります。入力特徴ベクトルの予測クラスを返します。スタジオ内の実験が問題なく実行されている間に、デプロイされたサービスからテスト関数を実行すると、エラーが失敗します。
誰かがそれがどのようにうまくいかなかったのか考えていることを願っています.
machine-learning - svm 予測ファイルに 1 より大きい値があります
バイナリ分類のモデルをトレーニングするためにsvm lightを使用しています。モデルを使用して、いくつかの例をテストしました。予測ファイルの出力を見て驚きました。1 より大きい値と -1 より小さい値が含まれています。範囲は[-1,1]だと思いました。私は何か間違ったことをしていますか?
python - xgboost の Dmatrix が svm 軽量テキスト ファイルを高速にロードする理由
スパース行列のストレージとして svm light ファイルを使用しています。
テストでは、570601944 エントリの 31700108x54070 マトリックスの場合
21 秒を使用しました。
7分使用。
コードをハッキングする前に、誰かがこれに答えるのを手伝ってくれますか?
load_svmlight_file 関数を強化するための提案はありますか?
どうもありがとうございました!
svmlight - SVMLight: "モデル ファイルのバージョンが svm_classify のバージョンと一致しません!"
SVMLight の最新バージョン (V6.02) がインストールされています。svm_learn を使用して問題なくモデルを作成できますが、svm_classify で分類すると、次のようになります。
これらは両方とも数週間前に機能していたので、これは私にとってややイライラします。ここで新しいインストールが機能しており、svm_learn と svm_classify の両方が V6.02 を動作バージョンとして示しています。
何かご意見は?私は完全に困惑しています。
r - text2vec dtm をファイル (csv または svmlight) に書き込みます
今日、text2vec パッケージに出会いました。これは、特定の問題にまさに必要なものです。ただし、text2vec で作成された dtm を何らかの出力ファイルにエクスポートする方法がわかりませんでした。私の最終的な目標は、text2vec を使用して R で機能を生成し、結果のマトリックスを H2O にインポートしてさらにモデリングすることです。H2O は、CSV または SVMLight 形式のいずれかを読み取ることができます。
最初に作成した987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries
のは で、かなり大きいです。大きすぎるため、as.matrix() を使用して CSV に書き出すことはできません。SVMLight 形式で簡単に書き出せるのではないかと思ったのですが、動作するライブラリが見つかりませんでした。この出力を H2O に読み込むことができるファイルに取得するための他のオプションはありますか?