r - 列がダミー変数で、セル値が観測の名前であるデータセットを整理する方法は?

Question

私は、各列が (正しく) 対象の変数に対応する、非常に乱雑なデータセットを持っています。

データセットは基本的に個人を数えます。たとえば、Var1 は、Var1 が真である人のリストである必要があります。変数がアイスクリームのフレーバーであると想像してください。Var1はチョコレートアイスクリームです。データが記録された方法は、誰かがチョコレートアイスクリームが好きかどうか (1/0 または T/F) を示す代わりに、チョコレートアイスクリームが好きな人の名前だけがデータセットに含まれるようになっています。

このリストスタイルのデータセットでは、行が個々の観測値に対応していないため、データの分析が困難になります。現在、各列には名前のリストのみが含まれています。たとえば、Var1 は (R の意味ではなく、現実世界の意味で) チョコレートアイスクリームが好きな人の名前のリストである可能性があります。

このデータセットを分析に適したものにするために、情報を使用して、データセット内のすべての行を観測に対応させ、すべてのセル値を、観測が特定の変数の T/F であるかどうかに対応させたいと考えています。

現在、データセットは次のようになっています。

Var1   Var2   Var3
Name1  Name1  Name2
Name2  Name3
Name4  Name4

またはアイスクリームのフレーバーに関して：

Chocolate     Strawberry     Raspberry
Barbara       Barbara        Shanshan
Shanshan      Maria
Louis         Louis

したがって、Barbara はチョコレートとストロベリーアイスクリームが好きですが、Shanshan の名前が Barbara の名前と同じ行にあるなど、データセットは乱雑です。そんなはずはない。最初の行は Barbara の値を表し、セルの値は 1/0 または T/F のいずれかで、Barbara が特定のフレーバーのアイスクリームを好むかどうかを示します。

要するに、私はそれが次のように見えることを望みます

Var1   Var2   Var3
1      1      0
1      0      1
0      1      0
1      1      0

r - 列がダミー変数で、セル値が観測の名前であるデータセットを整理する方法は?

2 に答える 2

Related

Reference