問題タブ [svmlight]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - sklearn からの load_svmlight_file() でのオーバーフロー エラー
pandas データフレームから 1 行だけで SVMlight ファイルを作成しました。
from sklearn.datasets import load_svmlight_file
from sklearn.datasets import dump_svmlight_file
dump_svmlight_file(toy_data.drop(["Output"], axis=1),toy_data['Output'],"../data/oneline_pid.txt", query_id=toy_data['EventID'])
ファイルの結果は次のようになります。
でファイルを読み込もうとするとquery_id=True
、オーバーフロー エラーが発生します。
OverflowError: 符号付き整数が最大値を超えています
ファイルをロードするとquery_id=False
、エラー メッセージは表示されませんが、query_id の値が間違っています。これは出力です:
72048431380967004
として表示され72048431380967008
ます。
このエラーを回避するにはどうすればよいですか。最大値は でnp.uint64
ある9223372036854775807
ため、オーバーフロー エラーは発生しません。
データ型としてもロードしようとしましnp.int64
たが、出力は同じです。
scikit-learn バージョン: 0.16.1 OS X Yosemite 10.10.5
python - OpenCV+PYTHON: HOGDescriptor readALTModel(ファイル名)
python/opencvを使用して(cpp)HOGDescriptorクラスで関数readALTModel(filename)を使用する方法があるかどうかは誰にもわかりませんか?
ありがとう!
opencv - SVMLite が少ないトレーニング入力で誤分類するのはなぜですか?
SVM Light を使用して、OpenCV で処理された画像を分類しています。画像は白黒になり、少しぼやけており、opencv の HOG 検出器を使用して、1 でラベル付けされた正の画像と -1 でラベル付けされた負の画像からのベクトルで特徴ベクトルを作成します。7 つのポジティブ プロセス イメージと 7 つのネガティブ プロセス イメージで SVMLight トレイン ファイルを実行すると、7 つのネガティブ ファイルのうち 4 つが誤分類されます。
ただし、より大きな入力では、誤分類なしでトレーニングします。なぜこれが当てはまるのか誰にも分かりますか?
machine-learning - 機械学習を使用して、データ ストリームが与えられた場合に偶数発生の可能性を推定する
次のようなシステムによって生成されるデータのストリーム(3D位置など)があります。
(pos1, time1) (pos2, time2) (pos3, time3) ...
機械学習技術を使用して、特定のイベントの可能性を特定のデータ ストリームから推定 (または検出) したいと考えています。私がやった事:
- イベントがそのフレームで発生した場合は、すべてのフレームでデータに YES のタグを付けました。それ以外の場合は、NO に設定されます。
(pos1, time1, NO) (Pos2, time2, Yes) (pos3, time3, NO) ...(posK, timeK, Yes)...
- Lのようなウィンドウの長さを設定して、L個の連続したフレームを与えてモデルをトレーニングします。対応するタグは、そのウィンドウの最後の要素のタグによって設定されます。
(pos1、Pos2、pos3、NO) (pos2、Pos3、pos4、NO) (pos3、Pos4、pos5、NO) ... (posK-2、PosK-1、posK、YES) ...
- 最後に、このセットでモデルをトレーニングしました。
- テストでは、 L個の連続するフレームを連結し、モデルにこのデータ セットに対応するタグ (YES または NO など) を見つけるように依頼します。
「YES」よりも「NO」のほうがはるかに多いことがわかります。システムがほとんどアイドル状態にあり、イベントがないためです。そのため、トレーニングに影響を与えます。
ヒントを教えてください。1) この問題に最適な機械学習モデルのタイプはどれですか。2)現時点では、出力を「YES」または「NO」に分類していますが、いつでもイベントが発生する確率を知りたいです。どのようなモデルをお勧めしますか?
ありがとう
svmlight - 単語が文中に何度も出現する場合の svm light のトレイン ファイルの作成方法
私はSVM-Lightを使用しています(ウェブサイトhttp://svmlight.joachims.org/で))。問題をお聞きしたいです。「彼は頭が良くて、彼は優秀な学生です」という文があります。この文は肯定文です。この文から単語のリストを作成すると、次のように各単語のインデックスを含むリストが作成されます: {1 - 彼、2 - は、3 - 賢い、4 - そして、5 - a、6 - 良い、7 - 学生}。次に、「1 2 3 4 1 2 5 6 7」のように単語のインデックスで文を書き直します。また、各単語の値は「1:0.4 2:0.2 3:0.8 4:0.3 1:0.2 2:0.4 5:0.5 6:0.7 7:0.6」です。train ファイルの形式に従って、単語のインデックスは昇順に並べ替える必要があります。インデックス番号なので、「1 1:0.4 1:0.2 2:0.2 2:0.4 3:0.8 4:0.3 5:0.5 6:0.7 7:0.6」のように並べます。ただし、「機能は昇順でなければなりません!!!」というエラーが表示されます。svm_learn を実行すると。私の文章には 2 つの "he" 単語と 2 つの "
input - SVMLight: 分類子を作成するにはどうすればよいですか?
SVMLight を使用して分類器を構築し、名詞句 (NP) がアナフォリックかどうかを検出しようとしています。私は自分の機能を持っていますが、入力ファイルの形式を理解することに行き詰まっています。すべてのテキストをこの形式に変換するか、正のインスタンスと負のインスタンスを表す NP のみを配置する必要があります。ファイルをこの形式に変換できるソフトウェアはありますか?
また、モデルファイルの場合、このファイルには正確に何を含める必要がありますか?
どうぞよろしくお願いいたします。