問題タブ [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - データ フレームからダミー変数のマトリックスを作成します。欠損値には「NA」を使用
私は、数回繰り返された、さまざまな年に基づくデータを持っています。私の出力には、年数に等しい列があり、各列は1年です。ここでの目的は、年ごとに個別にダミーを作成することです。たとえば、2000 年の出力列の値は、2000 年に平行するメイン データに NA 以外の観測値がある場合は常に「1」、それ以外の場合は「0」である必要があります。さらに、NA は NA のままでなければなりません。入力データの小さなサンプルを以下に示します。
出力は次のようになります。
可能であれば、「for ループ」を使用してこの出力を取得したいと思います。それ以外の場合は、より単純なアプローチが高く評価されます。
python - パンダはワンホットエンコーディングデータフレームまたはnumpyをsklearnしますか?
一部の列がエンコードを必要としないワンホット エンコード (データフレーム/numpy 配列) を sklearn するように pandas データ フレームを変換するにはどうすればよいですか?
既にラベルがエンコードされたデータ フレームで、 でマークされた列のみをエンコードしたいcolumnsToEncode
ですか?
私の問題は、pd.Dataframe
またはnumpy
配列表現が優れているかどうか、およびエンコードされた部分を他の部分と再マージする方法がわからないことです。
これまでの私の試み:
注意: 私はPandas: Get Dummies / http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.htmlを認識していますが、それは列車/テスト分割でうまく機能しません。フォールドごとのエンコーディング。
r - R で非除外カテゴリのダミー変数を作成する
カテゴリのバイナリ表現を作成したいと考えています。(キャレット パッケージを使用して) カテゴリを除外する方法は知っていますが、非除外カテゴリに対しては簡単な方法ではありません。例えば
movies <- data.table(movie=c( "batman", "bighero6"), type=list("action",c("action","animation")))
movie type
1: batman action
2: bighero6 action,animation
のようなものを取得したい
action animation
batman 1 0
bighero6 1 1
r - R: xts timeseries オブジェクトにダミー変数列を追加する
2015 年の分単位の日中取引データで構成される xts 時系列オブジェクトがあります。1 をイベント日として、または 0 を非イベント日として示すダミー変数を追加したいと考えています。
ダミー変数は本質的に時系列ではないため、これを私の取引データに追加することは可能ですか?
ダミー列はどのように作成すればよいですか?
既存の xts にどのように追加できますか?
R は初めてなので、できるだけ具体的に回答してください。ありがとうございました!
stata - Stata での二分変数のコーディング
私は企業規模の二値変数のセットを持っています: emp1_2 (つまり、所有者を含めて 1 人か 2 人の従業員がいる企業)、emp3_9、emp10_19、emp20_49、emp50_99、emp100_249、emp250_499、emp500、さらに 27 社の企業に関する情報はありません。サイズですが、私は彼らが大企業であると推測しています。
「小さな会社」である会社の二分変数を作成したいと思います。したがって、この変数は が 1 の場合emp1_2==1 | emp3_9==1 | emp10_19==1
は 1 になり、それ以外の場合は 0 になります。
私が純粋なユーザーである Stata についての私の理解では、二分変数を作成する次の 2 つの方法は同等であるはずです。
方法 1)
方法 2)
代わりに、方法 2) を使用すると、emp1_2 | emp3_9 | emp10_19 と、どのカテゴリ (emp1_2、emp3_9、emp10_19、emp20_49、emp50_99、emp100_249、emp250_499、emp500) にも入っていない企業ですが、これらは大企業であると私は推測しています。
2つの方法に微妙な違いがあるかどうか疑問に思っています。私はそれらが同等の結果につながるべきだと思います。
python - ダミー列をメインテーブルに結合するには?
カテゴリ変数のダミー変数を作成しようとしています。ただし、それらを作成すると、「ValueError: 列が重複していますが、サフィックスが指定されていません」というメッセージが表示されます。コードは次のとおりです。
r - ダミー変数のデフォルトのバイナリ ラベルを変更する
model.matrix()
メソッド inを使用しR
て、ダミー変数を次のように生成します。
0 と 1 の出力ラベルの代わりに、model.matrix()
出力ラベルが -1 と 1 になるように設定する必要があるパラメーターは何ですか?
python - ラベル エンコーディングの不明な値の処理
sk-learn でラベル エンコーディングの不明な値を処理するにはどうすればよいですか? ラベル エンコーダーは、新しいラベルが検出された場合を除いて爆発します。
私が欲しいのは、ワンホットエンコーダーによるカテゴリ変数のエンコードです。ただし、sk-learn はそのための文字列をサポートしていません。そこで、各列にラベル エンコーダーを使用しました。
私の問題は、パイプラインの交差検証ステップで不明なラベルが表示されることです。基本的なワンホット エンコーダーには、そのようなケースを無視するオプションがあります。pandas.getDummies /cat.codes
パイプラインは、未知のラベルを含む可能性のある実際の新しい着信データでも機能する必要があるため、アプリオリでは不十分です。
CountVectorizer
この目的で a を使用することは可能でしょうか?