“dummy-variable”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

421 参照

r - 因子がダミー変数よりも優れているのはなぜですか?

gbm.stepR の dismo パッケージ (GBM 用) を使用して、ブーストされた回帰ツリーモデルを構築しています。私はもともとカテゴリ変数を因数としてコーディングしていましたが、因数をダミーのバイナリ変数 (存在する場合は 1、存在しない場合は 0) としてコーディングすると、アルゴリズムが再帰的なバイナリ分割を実行しやすくなると言われました。

しかし、今日は、因子を含むデータセット (320 回の実行) とダミー変数を含む他のデータセット (さらに 320 回の実行) について、学習率、ツリーの複雑さ、およびバッグ割合の組み合わせを多数実行しました。

一般的な内訳を示すために、4 つのカテゴリ変数がありました。

1) 最初のカテゴリーには 4 つのレベルがあり、4 つの個別の 1/0 の組み合わせに分割されました。

2) 2 番目は (1) と同じです。

3) 3 番目には 3 つのレベルがあり、3 つの別々の 1/0 の組み合わせに分割されました。

4) 最後のカテゴリ変数には 2 つのレベルがありました。つまり、2 1/0 の組み合わせです。

すべての実行を比較した後、因子でコード化されたデータセットは、説明された逸脱の点で、毎回 (320 回) バイナリダミー変数よりも 1.5 ～ 3% 優れていました。

ダミー変数がモデルによりよく適合すると予想されるのはなぜでしょうか? dismo舞台裏でダミー変数を自動的に作成しますか?

ありがとう。

r decision-tree gbm dummy-variable

2016-08-03T19:47:05.287

0 投票する

1 に答える

31 参照

r - 長いデータで個人ごとに新しい変数値をすべての応答に結び付ける

私は長い形式の縦断調査を使用しており、個人が 25 歳までに大学の学位を取得していない場合のダミー変数を作成しようとしています。私のデータは次のようになります。

説明しようとしたように、関連する年の調査回答にはかなりの数の欠落データポイントがあります。しかし、回答者が後年「いいえ」と答えた場合、25 歳未満のときに学位を取得していなかったことが推測できます。

できるだけ一般的になるように努めますが、ID = 1、2、3 など、1 人の個人のすべての変数値に依存する新しい変数を作成するにはどうすればよいですか?

わかりにくかったらすいません！

編集：

申し訳ありませんが、データは以前はワイド形式で、変数は回答者が 1998 年、2000 年、2002 年などに大学の学位を取得しているかどうかを示していました (値は応答を示す 1 == TRUE、0 == FALSE)、CYRB は実際、生年月日、目的のダミー変数の期待される出力用に編集されたテーブルは次のようになります。

つまり、回答者が 25 歳以降の調査で大学の学位を持っていないと回答した場合、ダミーの値は 1 になります。

これが少し明確であることを願っています。

r dummy-variable

2016-08-05T13:23:23.560

0 投票する

1 に答える

758 参照

r - グループプロパティに基づくダミー変数の作成

私のデータは次のようになります。

ID = 子供 ID、CSEX = 子供の性別、MID = 母親 ID、CMOB = 生年月日、CYRB = 生年月日、1st = 第一子ダミー、2nd = 第二子ダミー。

そして、家族に生まれた最初の 2 人の子供 (つまり、同じ MID を持つ) が同性である場合に値 1 を取るダミー変数を作成しようとしています。

私は試した

しかし、これは明らかに、MID ではなく個々の ID の条件のみをチェックするため、常に値 = 0 を取るダミーを返します。

ありがとう

予想される出力を編集します。

つまり、生まれた最初の 2 人の子供が同性である家族の個人の場合、ダミーの SAMESEX = 1

Edit2 (前に示したのは、真のデータセット呼び出し構造が与えるため、私が作成した例にすぎません):

と文字列:

r dplyr dummy-variable

2016-08-06T15:58:02.463

0 投票する

1 に答える

1352 参照

r - Rでリストからダミー変数をすばやく作成する方法

だから私はRを使うのが初めてで、かなり単純なタスクに問題があります. 次のように「データ」というdfがあります...

また、Data $ Group のある時点で発生するすべての一意の名前の「Player.Names」というベクトルもあります...

私が達成するのに苦労しているのは、それぞれの一意の名前を表し、名前が Data$Group にある場合は 1 の値を含み、そうでない場合は 0 の値を含む新しい列を「データ」に作成することです。目的の出力を以下に示します...

r dummy-variable

2016-08-06T19:48:56.620

0 投票する

1 に答える

467 参照

group-by - SAS: グループ内のグループごとに変数の値のダミー変数をコーディングする

CASE_ID (xy と z) のデータセット、各 CASE_ID の複数の日付 (重複する日付を含む) のセット、および変数 VAR があります。グループ内のグループごとにダミー変数 DUMMYVAR を作成したいと思います。特定の日付の CASE_ID x に対して VAR="C" の場合、その日付の CASE_ID x に対応するすべての観測に対して DUMMYVAR=1 になります。

ここでは従来の 2XDOW が鍵になると思いますが、SAS を使用して 3 週目で、ここで 2 つの BY グループでこれを取得するのに苦労しています。

ここで Haikuo のコードのバリエーションを参照し、書き込もうとしました。

group-by sas dummy-variable

2016-08-16T15:54:11.613

0 投票する

1 に答える

709 参照

stata - 2 つの組み合わせた期間にわたって 2 つの条件のいずれかを持つ個人のダミーを作成する

スターターを使用しています。

私は、TUS (すなわち、時間使用調査) から得られた記述統計を求めています: フルタイム労働者の 1 日の総労働時間 (これらのデータはルクセンブルグのものであるため、フルタイム労働者の 1 日労働時間は少なくとも 8 時間です)労働者）。したがって、私は、雇用されていると宣言した人だけがいるTUSのサブサンプルに取り組んでいます。

このデータセット (のサブサンプル) では、1 人あたり 2 つの観察があり、1 つは週末に、もう 1 つは平日です (つまり、これは一種の短いパネルデータセットです)。

フルタイムで働く人だけに関心があるので、次の 2 種類の個人の 2 日間の合計労働時間を測定したいと思います。

平日8時間以上、週末（土・日）0時間勤務の方
平日および週末に勤務する個人 (ウェイター、看護師、運転手など) で、勤務時間が平日 8 時間以上、週末 8 時間以上の人。

【質問1】個体が1か2のとき1、それ以外のとき0という変数を作るにはどうすればよいですか？

【質問2】正社員のダミー変数を作ったら、平日だけ働く人を1、土日も働く人を0にするダミー変数を作りたいのですが、どうすればいいですか？それ？

[更新] ここでは、データセットの一部を例として投稿します (datasex で取得):

stata panel-data dummy-variable

2016-08-18T08:34:06.820

問題タブ [dummy-variable]

r - 因子がダミー変数よりも優れているのはなぜですか?

r - 長いデータで個人ごとに新しい変数値をすべての応答に結び付ける

r - グループ プロパティに基づくダミー変数の作成

r - Rでリストからダミー変数をすばやく作成する方法

group-by - SAS: グループ内のグループごとに変数の値のダミー変数をコーディングする

stata - 2 つの組み合わせた期間にわたって 2 つの条件のいずれかを持つ個人のダミーを作成する

Reference

r - グループプロパティに基づくダミー変数の作成