“one-hot-encoding”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

5074 参照

c++ - ワンホットエンコーディングをプレーンバイナリに変換する

これは通常の「バイナリから bcd へ」の質問ではありません。

組み込みデバイスには、1 ～ 7 の数字 (曜日) を次の形式で格納する 1 バイトがあります。

このバイトを読み取り、その内容 (1 から 7) を BCD に変換したいのですが、その方法がわかりません。

一連の if ステートメントを使用して総当たり攻撃できることはわかっています。

などですが、もっと良い方法があると思います。このデータは、リアルタイムクロックの 1 つのレジスタに格納されます。I2C読み取りを実行してこのバイトを取得しており、プログラムでバイトに読み取ります。このリアルタイムクロックのデータシートには、この特定のレジスタが上で概説したようにフォーマットされていることが明記されています。

c++one-hot-encoding

2014-01-19T02:00:37.413

0 投票する

1 に答える

42163 参照

python - 元のデータフレームにダミー列を追加する

次のようなデータフレームがあります。

YEAR 値については、元のデータフレームに年列 (1993,1994...,2009) を追加したいと思います。YEAR の値が 1992 の場合、1992 列の値は 1 で、それ以外の場合は 0 です。

非常にばかげた for ループを使用しましたが、大きなデータセットがあるため、永遠に実行されているようです。誰でも私を助けてくれますか、どうもありがとう！

2014-04-22T01:19:19.093

0 投票する

5 に答える

98479 参照

python - 複数の DataFrame 列で get_dummies を実行していますか?

get_dummies複数の DataFrame 列に対して、単一の列を期待して複数を返すのような関数を慣用的に実行するにはどうすればよいでしょうか?

python pandas dataframe one-hot-encoding

2014-06-08T19:04:56.437

0 投票する

5 に答える

66862 参照

python - sklearnランダムフォレストはカテゴリ特徴を直接処理できますか?

値を取るカテゴリ機能、色があるとします

[「赤」、「青」、「緑」、「オレンジ」]、

それを使用して、ランダムフォレスト内の何かを予測したいと考えています。ワンホットエンコードする場合 (つまり、4 つのダミー変数に変更する場合)、4 つのダミー変数が実際には 1 つの変数であることを sklearn に伝えるにはどうすればよいですか? 具体的には、sklearn がさまざまなノードで使用する機能をランダムに選択する場合、赤、青、緑、オレンジのダミーを一緒に含めるか、それらのいずれも含めないでください。

これを行う方法はないと聞いたことがありますが、数値などとして任意にコーディングせずにカテゴリ変数を処理する方法があるに違いないと思います。

python scikit-learn random-forest one-hot-encoding

2014-07-12T16:54:00.733

0 投票する

1 に答える

449 参照

python - sklearn で OneHotEncoding を使用して 32 ビットの 16 進数をエンコードする

たとえば、1つのカテゴリで32ビットの16進数にハッシュされたカテゴリ機能がいくつかあり、3つの異なるクラスが次のようにハッシュされます。

1 つのホットエンコーディングはこれらをバイナリ配列にマップし、1 つのビットのみが 1 で、もう 1 つのビットは 0 です。したがって、上記の機能をエンコードしたい場合。必要なのは 3 ビットだけです。

001 correspond to 05db9164, 010 correspond to 68fd1e64, 100 correspond to 8cf07265

しかし、sklearn で OneHotEncoder を使用すると、数値が大きすぎることがわかります。これは私を混乱させました。数値の数値プロパティを気にしないためです。私たちはそれらが同じかどうかだけを気にします。

一方、0,1,2 をエンコードする場合:

期待どおりの答えが得られました。そして、これらの 32 ビットの 16 進数は、カテゴリ内のクラスを示すために使用されていると思います。0 、 1 、 2 と同じです。[0,0,1]、[0,1,0]、[1,0,0] で十分です。どうもありがとうございました。

python machine-learning scikit-learn data-mining one-hot-encoding

2014-08-24T04:08:17.920

0 投票する

1 に答える

4986 参照

hash - カーディナリティの高いデータの前処理では、最初にハッシュするか、最初にワンホットエンコードしますか?

ハッシングは次元を減らしますが、ワンホットエンコーディングは基本的に、マルチカテゴリ変数を多くのバイナリ変数に変換することによって特徴空間を爆破します。なので、逆効果のようです。私の質問は次のとおりです。

同じデータセットで両方を行う利点は何ですか? インタラクションのキャプチャについて何か読みましたが、詳細ではありません - 誰かがこれについて詳しく説明できますか?

どちらが最初に来ますか、そしてその理由は何ですか?

hash machine-learning dimensionality-reduction one-hot-encoding

2014-10-20T19:14:57.597

0 投票する

1 に答える

9549 参照

python - Pythonでコーパス文を表現するOne Hot Encoding

私は Python と Scikit-learn ライブラリのスターターです。私は現在、まずワンホットエンコーディングによって大規模なコーパスを表現する必要がある NLP プロジェクトに取り組む必要があります。Scikit-learn の preprocessing.OneHotEncoder に関するドキュメントを読みましたが、私の用語の理解ではないようです。

基本的に、考え方は次のようになります。

1000000 日曜日; 0100000 月曜日; 0010000 火曜日; ... 0000001 土曜日;

コーパスに 7 つの異なる単語しかない場合、すべての単語を表すために必要なのは 7 桁のベクトルだけです。そして、完成した文は、すべてのベクトルの連言、つまり文行列で表すことができます。しかし、Pythonで試してみましたが、うまくいかないようです...

どうすればこれを解決できますか? 私のコーパスには非常に多くの異なる単語があります。

ところで、ベクトルがほとんどゼロで満たされている場合は、Scipy.Sparse を使用して、CSR などのストレージを小さくすることもできます。

したがって、私の質問全体は次のようになります。

コーパス内の文を OneHotEncoder で表現し、SparseMatrix に格納する方法は?

君たちありがとう。

python machine-learning nlp scikit-learn one-hot-encoding

2015-05-20T21:58:51.540

0 投票する

2 に答える

7184 参照

indexing - Torch では、整数ラベルのリストから 1-hot tensor を作成するにはどうすればよいですか?

MNIST データセットなどから、整数クラスラベルのバイトテンソルがあります。

1-hot ベクトルのテンソルを作成するためにどのように使用しますか?

ループでこれを実行できることはわかっていますが、1 行で取得できる巧妙な Torch インデックスがあるかどうか疑問に思っています。

indexing torch one-hot-encoding

2015-08-14T15:46:02.190

0 投票する

3 に答える

1130 参照

python - scikit-learnのワンホットエンコーディングからカテゴリ機能をバックトラックしますか?

LASSO 回帰予測モデルを構築しようとしています。scikit-learn で OneHotEncoder を使用して、one-hot aka one-of-K スキームを使用して、すべてのカテゴリ整数機能をエンコードしました。結果に基づくと、51 個のパラメーターのみが実際に予測モデルに影響を与えます。これらのパラメータを調査したいのですが、上記のようにエンコードされています。ホットエンコードされた配列に対応するカテゴリ整数機能を抽出する方法を知っていますか? ありがとう！

python encoding machine-learning scikit-learn one-hot-encoding

2015-11-28T06:19:28.427

問題タブ [one-hot-encoding]

Reference