私は、各列が (正しく) 対象の変数に対応する、非常に乱雑なデータセットを持っています。
データセットは基本的に個人を数えます。たとえば、Var1 は、Var1 が真である人のリストである必要があります。変数がアイスクリームのフレーバーであると想像してください。Var1はチョコレートアイスクリームです。データが記録された方法は、誰かがチョコレート アイスクリームが好きかどうか (1/0 または T/F) を示す代わりに、チョコレート アイスクリームが好きな人の名前だけがデータセットに含まれるようになっています。
このリスト スタイルのデータセットでは、行が個々の観測値に対応していないため、データの分析が困難になります。現在、各列には名前のリストのみが含まれています。たとえば、Var1 は (R の意味ではなく、現実世界の意味で) チョコレート アイスクリームが好きな人の名前のリストである可能性があります。
このデータセットを分析に適したものにするために、情報を使用して、データセット内のすべての行を観測に対応させ、すべてのセル値を、観測が特定の変数の T/F であるかどうかに対応させたいと考えています。
現在、データセットは次のようになっています。
Var1 Var2 Var3
Name1 Name1 Name2
Name2 Name3
Name4 Name4
またはアイスクリームのフレーバーに関して:
Chocolate Strawberry Raspberry
Barbara Barbara Shanshan
Shanshan Maria
Louis Louis
したがって、Barbara はチョコレートとストロベリー アイスクリームが好きですが、Shanshan の名前が Barbara の名前と同じ行にあるなど、データセットは乱雑です。そんなはずはない。最初の行は Barbara の値を表し、セルの値は 1/0 または T/F のいずれかで、Barbara が特定のフレーバーのアイスクリームを好むかどうかを示します。
要するに、私はそれが次のように見えることを望みます
Var1 Var2 Var3
1 1 0
1 0 1
0 1 0
1 1 0