問題タブ [one-hot-encoding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - ワンホット エンコーディングをプレーン バイナリに変換する
これは通常の「バイナリから bcd へ」の質問ではありません。
組み込みデバイスには、1 ~ 7 の数字 (曜日) を次の形式で格納する 1 バイトがあります。
このバイトを読み取り、その内容 (1 から 7) を BCD に変換したいのですが、その方法がわかりません。
一連の if ステートメントを使用して総当たり攻撃できることはわかっています。
などですが、もっと良い方法があると思います。このデータは、リアルタイム クロックの 1 つのレジスタに格納されます。I2C読み取りを実行してこのバイトを取得しており、プログラムでバイトに読み取ります。このリアルタイム クロックのデータシートには、この特定のレジスタが上で概説したようにフォーマットされていることが明記されています。
python - 元のデータフレームにダミー列を追加する
次のようなデータフレームがあります。
YEAR 値については、元のデータフレームに年列 (1993,1994...,2009) を追加したいと思います。YEAR の値が 1992 の場合、1992 列の値は 1 で、それ以外の場合は 0 です。
非常にばかげた for ループを使用しましたが、大きなデータセットがあるため、永遠に実行されているようです。誰でも私を助けてくれますか、どうもありがとう!
python - 複数の DataFrame 列で get_dummies を実行していますか?
get_dummies
複数の DataFrame 列に対して、単一の列を期待して複数を返す のような関数を慣用的に実行するにはどうすればよいでしょうか?
python - sklearnランダムフォレストはカテゴリ特徴を直接処理できますか?
値を取るカテゴリ機能、色があるとします
[「赤」、「青」、「緑」、「オレンジ」]、
それを使用して、ランダム フォレスト内の何かを予測したいと考えています。ワンホット エンコードする場合 (つまり、4 つのダミー変数に変更する場合)、4 つのダミー変数が実際には 1 つの変数であることを sklearn に伝えるにはどうすればよいですか? 具体的には、sklearn がさまざまなノードで使用する機能をランダムに選択する場合、赤、青、緑、オレンジのダミーを一緒に含めるか、それらのいずれも含めないでください。
これを行う方法はないと聞いたことがありますが、数値などとして任意にコーディングせずにカテゴリ変数を処理する方法があるに違いないと思います。
python - sklearn で OneHotEncoding を使用して 32 ビットの 16 進数をエンコードする
たとえば、1つのカテゴリで32ビットの16進数にハッシュされたカテゴリ機能がいくつかあり、3つの異なるクラスが次のようにハッシュされます。
1 つのホット エンコーディングはこれらをバイナリ配列にマップし、1 つのビットのみが 1 で、もう 1 つのビットは 0 です。したがって、上記の機能をエンコードしたい場合。必要なのは 3 ビットだけです。
001 correspond to 05db9164, 010 correspond to 68fd1e64, 100 correspond to 8cf07265
しかし、sklearn で OneHotEncoder を使用すると、数値が大きすぎることがわかります。これは私を混乱させました。数値の数値プロパティを気にしないためです。私たちはそれらが同じかどうかだけを気にします。
一方、0,1,2 をエンコードする場合:
期待どおりの答えが得られました。そして、これらの 32 ビットの 16 進数は、カテゴリ内のクラスを示すために使用されていると思います。0 、 1 、 2 と同じです。[0,0,1]、[0,1,0]、[1,0,0] で十分です。どうもありがとうございました。
hash - カーディナリティの高いデータの前処理では、最初にハッシュするか、最初にワンホット エンコードしますか?
ハッシングは次元を減らしますが、ワンホット エンコーディングは基本的に、マルチカテゴリ変数を多くのバイナリ変数に変換することによって特徴空間を爆破します。なので、逆効果のようです。私の質問は次のとおりです。
同じデータセットで両方を行う利点は何ですか? インタラクションのキャプチャについて何か読みましたが、詳細ではありません - 誰かがこれについて詳しく説明できますか?
どちらが最初に来ますか、そしてその理由は何ですか?
python - Pythonでコーパス文を表現するOne Hot Encoding
私は Python と Scikit-learn ライブラリのスターターです。私は現在、まずワンホット エンコーディングによって大規模なコーパスを表現する必要がある NLP プロジェクトに取り組む必要があります。Scikit-learn の preprocessing.OneHotEncoder に関するドキュメントを読みましたが、私の用語の理解ではないようです。
基本的に、考え方は次のようになります。
- 1000000 日曜日; 0100000 月曜日; 0010000 火曜日; ... 0000001 土曜日;
コーパスに 7 つの異なる単語しかない場合、すべての単語を表すために必要なのは 7 桁のベクトルだけです。そして、完成した文は、すべてのベクトルの連言、つまり文行列で表すことができます。しかし、Pythonで試してみましたが、うまくいかないようです...
どうすればこれを解決できますか? 私のコーパスには非常に多くの異なる単語があります。
ところで、ベクトルがほとんどゼロで満たされている場合は、Scipy.Sparse を使用して、CSR などのストレージを小さくすることもできます。
したがって、私の質問全体は次のようになります。
コーパス内の文を OneHotEncoder で表現し、SparseMatrix に格納する方法は?
君たちありがとう。
indexing - Torch では、整数ラベルのリストから 1-hot tensor を作成するにはどうすればよいですか?
MNIST データ セットなどから、整数クラス ラベルのバイト テンソルがあります。
1-hot ベクトルのテンソルを作成するためにどのように使用しますか?
ループでこれを実行できることはわかっていますが、1 行で取得できる巧妙な Torch インデックスがあるかどうか疑問に思っています。
python - scikit-learnのワンホットエンコーディングからカテゴリ機能をバックトラックしますか?
LASSO 回帰予測モデルを構築しようとしています。scikit-learn で OneHotEncoder を使用して、one-hot aka one-of-K スキームを使用して、すべてのカテゴリ整数機能をエンコードしました。結果に基づくと、51 個のパラメーターのみが実際に予測モデルに影響を与えます。これらのパラメータを調査したいのですが、上記のようにエンコードされています。ホットエンコードされた配列に対応するカテゴリ整数機能を抽出する方法を知っていますか? ありがとう!