問題タブ [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - ダミー変数を含む 2 次元行列で 3 次元行列を乗算する
サイズ AxBxC の 3D マトリックス X とサイズ CxD の 2D マトリックス Y があります。行列の乗算を実行して、サイズ AxBxD の 3D 行列 R を取得したいと考えています。
A = 30、B = 70、C = 300、D = 100。
3 次元行列は、次の値を取るダミー変数です。
- 1 - インスタンス AxB の各次元 C で、(...)(およびすべての C の合計 = 300) の場合、C ごとに異なります。
- 0 - それ以外
X は次のように定義されます。
2D 行列 Y は時系列データです。
私の最大の問題は、ダミー変数にあります。
python - 一部の文字列変数に sklearn の線形回帰を適用する方法
ロジスティック回帰を使用して映画の興行収入を予測します。俳優や監督を含むいくつかの列車データを取得しました。これは私のデータです:
整数を使用して監督と俳優をエンコードします。
それはそれを意味しX={[1,1],[2,2]} y=[300,500]
、それfit(X,y)
は機能しますか?
r - R var predict には外生変数リストとダミー変数リストの両方が必要ですが、仕様にダミー変数が含まれていない場合はどうなりますか?
R でベクトル自動回帰 (VAR) 時系列モデルを開発しています。モデル仕様には、xts
「endog」と呼ばれる内生変数の行列 (クラス) と、「exog」とxts
呼ばれる外生変数の行列 (クラス) が含まれています。データは季節性であり、季節性を予測したいので、データは月単位であるため、「season = 12」も指定します。したがって、var モデルを実行するための R コードは次のとおりです。
このコードはスムーズに実行されます。しかし、今は 24 期間先のデータを予測したいと考えています。したがって、私の予測コードは次のとおりです。
ここで、「exog_future」は、exogxts
と同じ変数の行列 (クラスでもあります) ですが、予測される 24 の将来の期間が含まれています。(私は 2 つのバージョンを試しました。1 つは過去のデータ exog に次の 24 期間の新しいデータを加えたバージョンで、もう 1 つは 24 期間のみを含むバージョンです。)
次のエラー メッセージが表示されます。
predict.varest(VAR(endog, p = 1, season = 12, type = "const", : dumvar の行列が指定されていませんが、オブジェクト varest には外生変数が含まれています。
明らかに、R は外生変数に加えてダミー変数の行列を期待しています。R が "season = 12" 仕様をダミー変数の行列と見なさない限り、モデル仕様にはダミー変数が含まれていないのに、なぜ今ダミー変数を期待するのでしょうか? 季節の仕様をダミー変数と見なす場合に備えて、予測コードに「season = 12」を追加しました。同じエラー メッセージが表示されました。
モデルに外生変数が含まれている場合、予測コードでこれらの将来の値を指定する必要があることを理解しています。また、ダミー変数を指定した場合、その予測には、本質的に同じ理由でこれらの将来の値も必要になることも理解しています。それらは外生変数であり、バイナリ変数です。
では、モデル仕様にダミー変数が含まれていない場合、R は「dumvar」に何を提供することを期待していますか?
variables - パネルデータのダミーで2つの変数を折りたたむ方法
collapse
データセットのいくつかの変数が必要ですが、問題が発生しています。
基本的に、2つの変数があります
valor_receita_propria
(英語では own_revenue_value)qt_tec_total
(または total_tec_qt、機関内の技術者の数)。
上記の変数の値が個々のプラントを参照するか、その企業を参照するかを指定する 2 つのダミー変数があります。
たとえば、in_refT
が 1 の場合、そのプラントの値はqt_tec_total
実際には企業全体を指します。が 2 の場合in_refT
、その植物の値はその特異な植物を参照します。
私がする必要があるのは、エンタープライズのすべての値を集約することです。私の計画は、企業を参照するすべての値の平均をとり、各プラントを参照するすべての値の合計を取ることだったので、私は書きました:
各企業全体のみを排他的に参照する、各種類の変数が 1 つだけになるようにする必要があります。ただし、次のエラーが表示されます。
無効な '(' r(198);
r - データのサブセットに基づいて新しいカテゴリ変数を作成する
次のようなデータフレームがあります。
参考までに、q
は「質問」の略です。では、q2
「問2」です。同様にans
、応答があります。
ここで、 の応答に基づいてカテゴリ変数を作成したいと考えていますq2
。特に、次のカテゴリを割り当てたいと思います。
- 公衆
- プライベート
- 混合
- 他の
したがって、ans=1
toの場合qst=q2
、これは「Public」、ans=2
toの場合qst=q2
は「Private」などです。したがって、この後のデータフレームは次のようになります。
ifelse を使用しようとしましたが、やりたいことができませんでした。誰かが私にそれを行う方法についていくつかの提案をしてもらえますか?
データ
r - 同じカテゴリ変数のレベルであるダミー変数を処理するためのキャレット RFE
分類の問題があり、予測子の 1 つは、3 つのダミー変数 A、B、C に変換された 4 つのレベル A、B、C、D を持つカテゴリ変数 X です。キャレット パッケージの Recursive Feature Selection (RFE) を使用して機能選択を行おうとしていました。A、B、C、D を一緒に考慮するように RFE 関数に指示するにはどうすればよいですか? つまり、A を除外すると、B&C も除外されます。
一日中これと戦った後、私はまだどこにも行きません...フォーミュラインターフェイスを使用してRFEをフィードすることも機能しません。RFE は自動的に因子をダミー変数に変換すると思います。
以下は私のコード例です:
ここの x_frame には、複数のレベルを持つカテゴリ変数が含まれています。
どんな助けでも大歓迎です!
python - すべてのカテゴリが存在しない場合のダミー変数
列の 1 つにカテゴリ変数が含まれている一連のデータフレームがあります。それをいくつかのダミー変数に変換したいのですが、その場合、通常はget_dummies
.
何が起こるかというとget_dummies
、各データフレームで利用可能なデータを見て、いくつのカテゴリがあるかを調べ、適切な数のダミー変数を作成します。しかし、私が今取り組んでいる問題では、可能なカテゴリが何であるかを実際に事前に知っています。ただし、各データフレームを個別に見ると、必ずしもすべてのカテゴリが表示されるわけではありません。
私の質問は次のとおりです:get_dummies
特定のデータフレームに表示されないカテゴリの場合、0 の列を作成するように、カテゴリの名前 (または同等の関数) を渡す方法はありますか?
これを作るもの:
これになる:
r - 1 R でトレーニング データとテスト データを別々にホット エンコードする
前の長さに基づいて、100
余分な列を追加する必要がありますdata.frame
data.frame
たとえば、 とdata.frame
の 2 つがXtrain
ありXtest
ます。Xtrain
1000 列ですが、Xtest
900 列しかありません。この違いは、Xtrain
とXtest
が別々に 1-hot エンコードされているためです。
不足している 100 列 (すべて 0) を に追加するにはどうすればよいXtest
ですか? また、拡張された列の順序はXtest
と同じである必要がありますXtrain
。
これは私がこれまでに試したことです:
しかし、これはe
の対応するエントリではない列を追加しますextra
。