“one-hot-encoding”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1610 参照

python-2.7 - PySpark-OneHotEncoding

これはナイーブかもしれませんが、私は PySpark と Spark を使い始めたばかりです。Pyspark の One Hot Technique を理解するのを手伝ってください。列の 1 つで OneHotEncoding を実行しようとしています。1 回のホットエンコーディングの後、データフレームスキーマはベクトルを追加します。ただし、機械学習アルゴリズムを適用するには、既存のデータフレームに個別の列を追加し、各列がカテゴリを表すようにする必要がありますが、ベクトル型の列ではありません。OneHotEncoding を検証する方法。

私のコード:

この表示:

新しく追加された列はベクトル型です。それを各カテゴリの個々の列に変換するにはどうすればよいですか

2016-09-29T06:21:04.693

0 投票する

1 に答える

87 参照

r - R - フィルタリングによるggplot2の異なる列、垂直に積み上げ

Age、Info、Target、および Info を含むデータフレーム (df2) が、以下のようにワンホットエンコードされた列に変換されています。

そしてこれがdf2

さまざまな情報タイプの年齢の分布、つまり「良い」、「悪い」などのプロットをプロットしたいと考えています。例えば：

added_colsOne-Hot-Encoded 機能を使用して、単一のプロットですべての列のこのようなプロットをファセットするにはどうすればよいですか? おそらくファセットを使用していますか？

r plot ggplot2 facet one-hot-encoding

2016-10-01T09:50:37.940

0 投票する

2 に答える

1947 参照

python - Scikit-learn の OneHotEncoder で次元数を取得する方法

私はOneHotEncoder自分のプロジェクトで Scikit-learn のを使用しています。n_valueそして、がに設定されている場合、各ワンホットベクトルのサイズを知る必要がありますauto。私はそれを示すと思っn_value_たが、訓練サンプルを試す以外に方法がないようだ. 問題を示すために、このおもちゃのサンプルコードを作成しました。他の解決策を知っていますか？

python machine-learning scikit-learn one-hot-encoding

2016-10-13T15:25:36.117

0 投票する

0 に答える

623 参照

python - scikit-learnでラベルエンコーディングと1つのホットエンコーディング後に係数名を取得する方法は?

scikit-learn の RidgeCV() メソッドを使用して、機械学習モデル (Ridge Regression w/ Cross-Validation) を実行しています。私のデータセットには 5 つのカテゴリ機能と 2 つの数値機能があるため、まず LabelEncoder() を使用してカテゴリ機能を整数に変換し、OneHotEncoder() を適用して 0 と 1 の新しい機能列をいくつか作成しました。機械学習モデル。

私の X_train は numpy 配列になり、モデルをフィッティングした後、その係数を取得しているので、疑問に思っています.これらの係数を、対応する個々の機能に接続する簡単な方法はありますか? Pandas get_dummies とは異なり、OneHotEncoder は、ラベル付けされたカテゴリのものから生成する個々の機能のタイトルを生成していないようです...

PS: LabelEncoder の .classes_ 属性と OneHotEncoder の .feature_indices_ を使用しましたが、探しているものが正確に得られるものはありません。Cross Validated に問い合わせたところ、Stack Overflow に紹介されました。

python machine-learning scikit-learn feature-selection one-hot-encoding

2016-10-19T21:20:11.593

0 投票する

1 に答える

111 参照

list - pandas dataFrame の onHotEncoding とリスト

私はパンダのデータフレームを持っています:

その結果:

ただし、dataFrame のセルを含む各リストをstringとして扱う onHotEncoder を実装し、各値を個別に扱いたいと考えています。

これをどのように実装しますか？私の実際のデータフレームには、500 項目のリストが含まれており、4000 の一意の値があります。

list pandas dataframe multiple-columns one-hot-encoding

2016-10-27T10:48:07.203

0 投票する

1 に答える

20017 参照

python - ラベルエンコーディングの不明な値の処理

sk-learn でラベルエンコーディングの不明な値を処理するにはどうすればよいですか? ラベルエンコーダーは、新しいラベルが検出された場合を除いて爆発します。

私が欲しいのは、ワンホットエンコーダーによるカテゴリ変数のエンコードです。ただし、sk-learn はそのための文字列をサポートしていません。そこで、各列にラベルエンコーダーを使用しました。

私の問題は、パイプラインの交差検証ステップで不明なラベルが表示されることです。基本的なワンホットエンコーダーには、そのようなケースを無視するオプションがあります。pandas.getDummies /cat.codesパイプラインは、未知のラベルを含む可能性のある実際の新しい着信データでも機能する必要があるため、アプリオリでは不十分です。

CountVectorizerこの目的で a を使用することは可能でしょうか?

python pandas scikit-learn dummy-variable one-hot-encoding

2016-10-29T16:32:15.757

0 投票する

1 に答える

1276 参照

python - ワンホットエンコーディングを使用した Tensorflow 埋め込みルックアップ

現在、埋め込みを使用したいワンホットエンコーディングがあります。しかし、私が電話するとき

埋め込みデータ形状 (11、32、729、128)

この形状は (11, 32, 128) である必要がありますが、train_data がワンホットエンコードされているため、間違った次元が得られます。

エラーを教えてください：

助けてください！ありがとう。

python tensorflow one-hot-encoding

2016-11-09T01:44:43.213

0 投票する

1 に答える

649 参照

python - パンダが異常なテキスト順序で因数分解する方法

次のような値を持つ列「cat100」を持つデータフレームがあります。

「A」「B」…「Y」「Z」「AA」「AB」…

AAが「B」「C」...「Z」の後にあるように、pd.factorizeを使用して列を因数分解したいと思います。

私は次のようなことを試しました：

しかし、これは A を 0 に、B を 2 に、AA を 1 に割り当てます。AA を 2 に、B を 1 に割り当てたいのです。

これを行う方法を検索しましたが、何も見つかりませんでした。これを行う方法はありますか？

python pandas categorical-data one-hot-encoding

2016-11-11T17:11:52.423

0 投票する

1 に答える

554 参照

machine-learning - スパース行列が与えられると、Sklearn は ValueError をスローします

SVM 分類子は、フィーチャが疎なマトリックスで表されている場合は値エラーをスローしますが、フィーチャが密なマトリックスで表されている場合はエラーになりません。

機能セットで One Hot Encoding を実行し、エンコードされた出力を機能の新しいリストに追加するコードがあります。One Hot Encoding の出力が .toarray() を使用して密な配列に変換されると、私の SVM 分類子は正常に動作します。

ただし、数千のデータポイントがあり、コンピューターのメモリがすぐに不足するため、密な配列を使用することは理想的ではありません。したがって、スパース配列が必要です。以下のコードから .toarray() を単純に削除すると、 enc.transform(features) の出力はスパース行列を出力します。ただし、SVM 分類器を実行すると、次のエラーが発生します。

ValueError: 配列要素をシーケンスで設定しています。

SVM がデータを適合させようとすると、何かが失敗しているように見えます。Sklearn SVM はスパースベクトルを受け入れるため、何が問題なのかわかりません。

machine-learning scikit-learn svm sparse-matrix one-hot-encoding

2016-11-14T19:39:08.293

問題タブ [one-hot-encoding]

Reference