問題タブ [one-hot-encoding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
9176 参照

python - onehotencoder の sklearn マスクが機能しない

次のようなデータを考慮します。

OHE 機能を使用してテキスト列を除外したい。

以下が機能しないのはなぜですか?

ドキュメントには次のように書かれています:

マスクを使用していますが、まだフロートに変換しようとしています。

使っても

同じエラー。

また、「インデックスの配列」の場合:

0 投票する
3 に答える
4912 参照

python - DNA シーケンスの 1 つのホット エンコーディングを生成する方法は?

一連の DNA シーケンスに対して 1 つのホット エンコーディングを生成したいと考えています。たとえば、シーケンス ACGTCCA は、転置方式で次のように表すことができます。しかし、以下のコードは、私が垂直形式で好む水平方向の 1 つのホット エンコーディングを生成します。誰でも私を助けることができますか?

コード例:

ただし、コードから出力が得られます。

期待される出力:

0 投票する
1 に答える
883 参照

tensorflow - 1 つのホット エンコーディングを追加すると、Tensorflow で以前に動作していたコードでエラーがスローされます

ここでロジットに 1 つのホット エンコーディングを導入すると、プログラムは後でエラーを返しますが、どちらも同じ次元を返します。この行をコメントアウトすると、プログラムはエラーを出しません。

コードの残りの部分:

---> 23 卒業生,ノルム = tf.clip_by_global_norm(tf.gradients(cost,tvars),5)

ValueError: 最小長 1 よりも短い長さ 0 で、引数 'values' を 'Pack' Op にリストします。

0 投票する
2 に答える
4281 参照

python - ダミー変数を作成し、scikit-learn を使用して集計する方法は?

パッケージ pandas を使えば簡単に実現できることはわかっているのですが、あまりにもまばらで大きい (170,000 x 5000) ため、最後に sklearn を使用して再度データを処理する必要があるため、 sklearnで行う方法。ワンホットエンコーダーを試しましたが、ダミーを「id」に関連付けるのに行き詰まりました。

アップデート:

今、私はここにいて、「id」が失われました。集計を行うにはどうすればよいですか?

0 投票する
2 に答える
502 参照

python - 列ごとに複数の値を持つ特徴をエンコードするにはどうすればよいですか? MultiDictVectorizer が必要ですか?

sklearn でいくつかの機能をベクトル化していますが、問題が発生しました。DictVectorizer は、データを項目ごとに 1 つの dict キーにエンコードできる場合にうまく機能します。アイテムが同じ列の 2 つ以上の値を持つことができる場合はどうなりますか? たとえば、DictVectorizer は次のようなアイテムで正常に動作します。

しかし、列ごとに複数の値があるこのようなものはどうでしょうか?

ワンホット エンコーディングの戦略は引き続き適用できます。単純に 2 つの a 列が必要です。a=b と a=c です。私が知る限り、そのようなベクトライザーは存在しません! この状況で何をすべきか?独自の MultiDictVectorizer を作成する必要がありますか?

投稿する前に、ここのブログ投稿でこれについて書きました。

0 投票する
0 に答える
60 参照

python - OneHot Encoder を使用して 1 つの列を 4 つに分割する

Python で、次のような size というデータ フレームの列があるとします。

D から G までの文字は、S から X-Large までのさまざまなサイズを表します。私ができることは、それらを数値で表すことです。

ただし、これは連続データではないため、今後行う他の分析で問題が発生する可能性があります。したがって、私が持っていた別のアイデアは、これを 4 つの列に分割することでした。ここで、サイズのインスタンスは 1 で、それ以外の場合は 0 です。次のようになります。

この種のシナリオに役立つ Python の OneHotEncoder と呼ばれるものについて聞いたことがあります。この問題を解決するためにこれを効果的に使用するにはどうすればよいですか、またはこれについて他にどのような方法がありますか?