いくつかのデータを R にインポートしたいのですが、それをどのように構造化するのか疑問に思っています。以前に R を使用したことがありますが、まだ初心者レベルです。
データは典型的な 1 対多の関係を表し、XML として利用できます。私の実際のデータの複雑な現実に頭を悩ませないようにするために、悪名高い Order -> OrderItem の例を使用しましょう。私の XML ファイルには Orders のコレクションが含まれており、各注文には、いくつかの単純型要素に加えて、OrderItems のコレクションが含まれており、各注文項目には独自の単純型要素があります。
リレーショナル スタイルの 2 つのデータ フレームを作成することもできます。1 つは注文用、もう 1 つは注文項目用です。または、注文のデータ フレームを作成して、注文項目のミニ データ フレームをそれぞれにボックス化することもできます。それとも、自分のオブジェクトを定義しようとしますか? 私はRでOOをしたことがありません。
R にはそれを行うための「正しい」方法があり、その組み込みツールにより、これら 3 つの構造のいずれかを簡単に操作できると思います。でも、どれだかわかりません。それとも、私が思いもよらなかった4番目のアプローチですか?どちらを選ぶべきですか?
XML をインポートするためのパッケージのドキュメントは既に見ました。彼らは、特定のノードからデータを取得するために使用する方法を説明しましたが、私の質問には何も答えませんでした。例には常にフラット データが含まれていました。
データ分析には、Orders と OrderItems の関係が必要な質問が必ず含まれます。例えば、「日曜より月曜の方が注文が多い商品はありますか?」など。
データの現在の状態の最小限の作業例を次に示します。
<?xml version="1.0"?>
<orders>
<order>
<orderDate>01.01.1850</orderDate>
<customerName>Jules Verne</customerName>
<orderItems>
<orderItem>
<itemName>miniature steam machine</itemName>
<quantity>2</quantity>
<price>30 guineas</price>
<comment>British import</comment>
</orderItem>
<orderItem>
<itemName>map of Siberia</itemName>
<quantity>1</quantity>
<price>50 sous</price>
</orderItem>
</orderItems>
</order>
<order>
<orderDate>01.06.1970</orderDate>
<customerName>Arthur Clarke</customerName>
<orderItems>
<orderItem>
<itemName>Meccano set "spaceship"</itemName>
<quantity>1</quantity>
<price>50 dollars</price>
</orderItem>
</orderItems>
</order>
</orders>