1

私は、各列が (正しく) 対象の変数に対応する、非常に乱雑なデータセットを持っています。

データセットは基本的に個人を数えます。たとえば、Var1 は、Var1 が真である人のリストである必要があります。変数がアイスクリームのフレーバーであると想像してください。Var1はチョコレートアイスクリームです。データが記録された方法は、誰かがチョコレート アイスクリームが好きかどうか (1/0 または T/F) を示す代わりに、チョコレート アイスクリームが好きな人の名前だけがデータセットに含まれるようになっています。

このリスト スタイルのデータセットでは、行が個々の観測値に対応していないため、データの分析が困難になります。現在、各列には名前のリストのみが含まれています。たとえば、Var1 は (R の意味ではなく、現実世界の意味で) チョコレート アイスクリームが好きな人の名前のリストである可能性があります。

このデータセットを分析に適したものにするために、情報を使用して、データセット内のすべての行を観測に対応させ、すべてのセル値を、観測が特定の変数の T/F であるかどうかに対応させたいと考えています。

現在、データセットは次のようになっています。

Var1   Var2   Var3
Name1  Name1  Name2
Name2  Name3
Name4  Name4

またはアイスクリームのフレーバーに関して:

Chocolate     Strawberry     Raspberry
Barbara       Barbara        Shanshan
Shanshan      Maria
Louis         Louis

したがって、Barbara はチョコレートとストロベリー アイスクリームが好きですが、Shanshan の名前が Barbara の名前と同じ行にあるなど、データセットは乱雑です。そんなはずはない。最初の行は Barbara の値を表し、セルの値は 1/0 または T/F のいずれかで、Barbara が特定のフレーバーのアイスクリームを好むかどうかを示します。

要するに、私はそれが次のように見えることを望みます

Var1   Var2   Var3
1      1      0
1      0      1
0      1      0
1      1      0
4

2 に答える 2