OpenDataKit の ODK collect を使用して、フィールドでの調査データを収集しています。現在、ODK 集計を使用して、CSV ファイルとしてダウンロードされる前に、Google クラウドでデータ送信を受け入れています。すべてのステップでエラーが発生する可能性があるため、このプロセス全体はややイライラします。代わりに、タブレットから直接 R にデータを読み込んで、データの各レベルのデータフレームをコンパイルできるようにしたいと考えています。
データは個別のインスタンスとして xml 形式で保存されます。現在、2000 ほどの異なるインスタンスがあります。XML を使用して個々のインスタンスを R に読み込むと、データは次のようになります。
<A_note/>
<A_group1>
<A_note1/>
<A_note2/>
<A01>2</A01>
</A_group1>
<A_group1.5>
<A02>901</A02>
<A02a/>
</A_group1.5>
<A_group2>
<A03>9</A03>
<A03a/>
<HH_key>9010</HH_key>
<A04a/>
<A06/>
<A07/>
</A_group2>
<A_group3>
<A04>9</A04>
<A04a_note/>
<A06_note/>
<A07_note/>
<A04a_int>840256790</A04a_int>
<A05>2</A05>
<A06a>Baixo Umbeluze, perto do rio Umbeluze.</A06a>
<A07a>-26.057376459502194 32.33107993182396 15.271170877998825 4.0</A07a>
情報を持たないタグ ( とA_note1
などA_note2
) と、その上のレベルが一意であるため不要なグループ (A_group1
とA_group2
) が多数あることがわかります。
私ができるようにしたいことは次のとおりです。1.不要なグループを削除してデータを平坦化します。2.各インスタンスをデータの異なる行として扱い、インスタンスからの情報をまとめます。
これはおそらく 1 回の投稿で質問するには多すぎることは承知していますが、誰かがこの作業を行う方法を理解するためにすでに多大な労力を費やしている場合に備えて、これを公開したいと思いました。
ありがとう、フランシス