“multilabel-classification”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

219 参照

machine-learning - Vowpal Wabbit 常に同じ結果

VW を使用してマルチクラスを予測しようとしています。最も奇妙な部分は、使用するパラメーターに関係なく、結果が常に同じであることです。

おそらく私のデータのせいでしょうか？

詳細：

約 90k 行のデータ。データの行:

そのマルチクラスの問題なので、コマンドラインは次のとおりです。

何かを変更する単一のパラメーターは、-ect から --oaa です。以下を追加しようとしましたが、最終的な検証値を変更するものはありません:

-c -k -- 20 を渡します (8 まで)
--l1 または --l2
--power_t
--ignore D または --ignore d (または s または su...)

結果は常に

ここに欠けているものはありますか？

2015-11-27T16:17:56.610

0 投票する

0 に答える

498 参照

classification - xgboost パッケージを使用した分類モデル

xgboost モデルの有効な引数として、文字を因子変数 (例: "A" "B" "C") に変換し、さらに数値因子変数 (例: "0" "1" "2") に変換しました。数値因子を因子変数に戻すには、どの関数を使用できますか? 分類モデルで使用する必要があります。

classification text-classification multilabel-classification xgboost

2015-11-30T01:02:36.927

0 投票する

1 に答える

603 参照

scala - Spark マルチクラス分類 - カテゴリ変数

私はcsvファイルとしてデータセットを持っています。約 50 の列があり、そのほとんどがカテゴリです。新しいテストデータセットを使用して RandomForest マルチクラス分類を実行する予定です。

これの問題点は、カテゴリ変数を処理することです。それらを処理する最良の方法は何でしょうか? Spark ウェブサイトhttp://spark.apache.org/docs/latest/ml-guide.html#example-pipelineの Pipeline のガイドを読みました。これは、スペースで区切られた文字列を備えたハードコードされたシーケンスから DataFrame を作成します。これは非常に具体的に見え、私が持っている CSV ファイルを使用して、機能に HashingTF を使用する方法について同じことを達成したかったのです。

要するに、リンクと同じことを達成したいのですが、CSVファイルを使用しています。

助言がありますか？

編集: データ -> 50 個の機能、10 万行、そのほとんどが英数字のカテゴリです。ファイルから DataFrame を作成しようとしましたが、カテゴリ列をエンコードする方法について混乱しました。私が持っている疑問は次のとおりです

scala apache-spark apache-spark-mllib categorical-data multilabel-classification

2015-11-30T04:37:43.897

0 投票する

1 に答える

17645 参照

python - Scikit Learn マルチラベル分類: ValueError: 従来のマルチラベルデータ表現を使用しているようです

マルチラベル分類問題のために、アナコンダ 2.7 で scikit Learn 0.17 を使用しようとしています。ここに私のコードがあります

ここに私のデータがどのように見えるかがあります

トレーニング

テスト

しかし、私はエラーが発生します

これは何を意味するのでしょうか？

ここに完全なスタックトレースがあります

どうすればこれを修正できますか? データの形式を変更する必要がありますか? gridSearchTS.fit(Xtrain, ytrain) が失敗するのはなぜですか? X と y をフィット関数に適したものにするにはどうすればよいですか?

編集

私は試した

しかし今、私は得る

の上

Xも二値化する必要がありますか？X 次元を float に変換する必要があるのはなぜですか?

python machine-learning scikit-learn multilabel-classification

2015-12-10T22:52:57.347

0 投票する

1 に答える

9805 参照

python - Python多項ロジスティック回帰:ValueError:入力形状が正しくありません(326L、559L)

マルチラベル分類問題の LogistcRegression 分類子を作成しようとしています

しかし、私はエラーが発生します

スタックトレース全体は

X 次元をどのように変換/フォーマットする必要がありますか?

python machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-14T21:20:52.987

0 投票する

1 に答える

134 参照

python-2.7 - OnVsRestClassifier の精度は 0 です

マルチラベル分類の問題を解決しようとしています

このようにして、私は常に0の精度を得ます。私が何か間違ったことをしている場合は指摘してください。マルチラベル分類は初めてです。ここに私のデータがどのように見えるかがあります

編集

@lejlot をご利用いただきありがとうございます。私はそれのコツをつかんでいると思います。これが私が試したものです

私の入力データは次のようになります

これは私が作成したテストデータです。それから私はします

これは私に与える

それから

私にくれます

ここで、なぜ6列があるのか疑問に思っていますか? 3つだけでいいんじゃない？ とにかく、テストデータファイルも作成しました

これは次のように見えます

PredTags精度をチェックする列があります。最後に、私は次のように適合して予測します

それは私に与えます

では、どのタグが予測されているかを知るにはどうすればよいでしょうか? PredTagsカラムに対する精度を確認するにはどうすればよいですか?

アップデート

@lejlotに感謝します:)次のように精度を取得することもできました

テストセットの予測列も2値化する必要がありました:)

python-2.7 machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-15T14:46:23.697

0 投票する

1 に答える

1760 参照

python - Python sklearn Multilabel Classification:UserWarning:Label not 226 is present in all training examples

マルチラベル分類の問題を試しています。私のデータは次のようになります

ここに私のコードがあります

コードは正常に実行されますが、これらのメッセージが引き続き表示されます

これは何を意味するのでしょうか？私のデータが十分に多様ではないことを示していますか?

python machine-learning scikit-learn logistic-regression multilabel-classification

2015-12-17T18:51:18.067

0 投票する

1 に答える

412 参照

python - マルチラベルデータに scikit を使用する際の問題

マルチラベルデータ分類に次のコードを使用しています:-

======出力=====

最後の 2 つは間違って予測されています。['New York', 'London'] の場合、どちらも [0,0,1] になるはずです。

だから私はこれらの質問があります:- 1.]私のコードの正確な問題は何ですか? 2.]これは「マルチラベル」データを処理する適切な方法ですか? または、他のより良いアプローチがあります。「マルチラベル」データについてインターネットで見つけることができるのは、これと1つか2つのコードだけだからです。一方、バイナリ分類には数千あります。これについて私を助けてください

python machine-learning text-classification multilabel-classification

user4069366

2015-12-28T15:49:16.823

問題タブ [multilabel-classification]

Reference