現在、Stataで解決に取り組んでいる次の問題に直面しています。アルゴリズムタグを追加しました。これは、Stataコードではなく、主に関心のあるステップであるためです。
いくつかの変数があります。たとえば、var1-var20で、文字列を含めることができます。私はこれらの文字列の一部にのみ興味があります。それらをA、B、C、D、E、Fと呼びましょう。ただし、他の文字列も発生する可能性があります(これらはすべてXで示されます)。また、私は一意の識別子IDを持っています。データの一部は次のようになります。
ID | var1 | var2 | var3 | .. | var20
1 | E | | | | X
1 | | A | | | C
2 | X | F | A | |
8 | | | | | E
ここで、すべてのIDと、任意の変数の文字列A、B、C、E、D、Fのいずれかが出現するたびにエントリを作成します。上記のデータは次のようになります。
ID | var1 | var2 | var3 | .. | var20
1 | E | | | .. |
1 | | A | | |
1 | | | | | C
2 | | F | | |
2 | | | A | |
8 | | | | | E
ここでは、A、B、C、D、E、またはFではない文字列Xがあるたびに無視します。これまでの私の試みは、エントリごとにA、B、の出現回数Nをカウントする変数を作成することでした。 C、D、E、F。上記の元のデータでは、その変数はN=1,2,2,1になります。次に、エントリごとに、これのN個の複製を作成します。これにより、次のデータが得られます。
ID | var1 | var2 | var3 | .. | var20
1 | E | | | | X
1 | | A | | | C
1 | | A | | | C
2 | X | F | A | |
2 | X | F | A | |
8 | | | | | E
私の問題は、ここからこの問題をどのように攻撃するかです。タイトルが貧弱で申し訳ありませんが、これ以上具体的に言うことはできませんでした。