問題タブ [multilabel-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Vowpal Wabbit 常に同じ結果
VW を使用してマルチクラスを予測しようとしています。最も奇妙な部分は、使用するパラメーターに関係なく、結果が常に同じであることです。
おそらく私のデータのせいでしょうか?
詳細:
約 90k 行のデータ。データの行:
そのマルチクラスの問題なので、コマンドラインは次のとおりです。
何かを変更する単一のパラメーターは、-ect から --oaa です。以下を追加しようとしましたが、最終的な検証値を変更するものはありません:
- -c -k -- 20 を渡します (8 まで)
- --l1 または --l2
- --power_t
- --ignore D または --ignore d (または s または su...)
結果は常に
ここに欠けているものはありますか?
classification - xgboost パッケージを使用した分類モデル
xgboost モデルの有効な引数として、文字を因子変数 (例: "A" "B" "C") に変換し、さらに数値因子変数 (例: "0" "1" "2") に変換しました。数値因子を因子変数に戻すには、どの関数を使用できますか? 分類モデルで使用する必要があります。
scala - Spark マルチクラス分類 - カテゴリ変数
私はcsvファイルとしてデータセットを持っています。約 50 の列があり、そのほとんどがカテゴリです。新しいテスト データ セットを使用して RandomForest マルチ クラス分類を実行する予定です。
これの問題点は、カテゴリ変数を処理することです。それらを処理する最良の方法は何でしょうか? Spark ウェブサイトhttp://spark.apache.org/docs/latest/ml-guide.html#example-pipelineの Pipeline のガイドを読みました。これは、スペースで区切られた文字列を備えたハードコードされたシーケンスから DataFrame を作成します。これは非常に具体的に見え、私が持っている CSV ファイルを使用して、機能に HashingTF を使用する方法について同じことを達成したかったのです。
要するに、リンクと同じことを達成したいのですが、CSVファイルを使用しています。
助言がありますか?
編集: データ -> 50 個の機能、10 万行、そのほとんどが英数字のカテゴリです。ファイルから DataFrame を作成しようとしましたが、カテゴリ列をエンコードする方法について混乱しました。私が持っている疑問は次のとおりです
python - Scikit Learn マルチラベル分類: ValueError: 従来のマルチラベル データ表現を使用しているようです
マルチラベル分類問題のために、アナコンダ 2.7 で scikit Learn 0.17 を使用しようとしています。ここに私のコードがあります
ここに私のデータがどのように見えるかがあります
トレーニング
テスト
しかし、私はエラーが発生します
これは何を意味するのでしょうか?
ここに完全なスタックトレースがあります
どうすればこれを修正できますか? データの形式を変更する必要がありますか? gridSearchTS.fit(Xtrain, ytrain) が失敗するのはなぜですか? X と y をフィット関数に適したものにするにはどうすればよいですか?
編集
私は試した
しかし今、私は得る
の上
Xも二値化する必要がありますか?X 次元を float に変換する必要があるのはなぜですか?
python - Python多項ロジスティック回帰:ValueError:入力形状が正しくありません(326L、559L)
マルチラベル分類問題の LogistcRegression 分類子を作成しようとしています
しかし、私はエラーが発生します
スタックトレース全体は
X 次元をどのように変換/フォーマットする必要がありますか?
python-2.7 - OnVsRestClassifier の精度は 0 です
マルチラベル分類の問題を解決しようとしています
このようにして、私は常に0の精度を得ます。私が何か間違ったことをしている場合は指摘してください。マルチラベル分類は初めてです。ここに私のデータがどのように見えるかがあります
編集
@lejlot をご利用いただきありがとうございます。私はそれのコツをつかんでいると思います。これが私が試したものです
私の入力データは次のようになります
これは私が作成したテストデータです。それから私はします
これは私に与える
それから
私にくれます
ここで、なぜ6列があるのか 疑問に思っていますか? 3つだけでいいんじゃない? とにかく、テストデータファイルも作成しました
これは次のように見えます
PredTags
精度をチェックする列があります。最後に、私は次のように適合して予測します
それは私に与えます
では、どのタグが予測されているかを知るにはどうすればよいでしょうか? PredTags
カラムに対する精度を確認するにはどうすればよいですか?
アップデート
@lejlotに感謝します:)次のように精度を取得することもできました
テストセットの予測列も2値化する必要がありました:)
python - Python sklearn Multilabel Classification:UserWarning:Label not 226 is present in all training examples
マルチラベル分類の問題を試しています。私のデータは次のようになります
ここに私のコードがあります
コードは正常に実行されますが、これらのメッセージが引き続き表示されます
これは何を意味するのでしょうか?私のデータが十分に多様ではないことを示していますか?
python - マルチラベル データに scikit を使用する際の問題
マルチラベルデータ分類に次のコードを使用しています:-
======出力=====
最後の 2 つは間違って予測されています。['New York', 'London'] の場合、どちらも [0,0,1] になるはずです。
だから私はこれらの質問があります:- 1.]私のコードの正確な問題は何ですか? 2.]これは「マルチラベル」データを処理する適切な方法ですか? または、他のより良いアプローチがあります。「マルチラベル」データについてインターネットで見つけることができるのは、これと1つか2つのコードだけだからです。一方、バイナリ分類には数千あります。これについて私を助けてください