xml - Apriori アルゴリズム用の XML データの準備

Question

一般に、アプリオリアルゴリズムは、次のように行列の形式で入力を受け取ります。

TID A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0

一方、私の入力は、次の一般的な形式の XML データです。

 <article key="tr/gte/TR-0263-08-94-165">
<author>Frank Manola</author>
<title>An Evaluation of Object-Oriented DBMS Developments: 1994 Edition.</title>
<journal>GTE Laboratories Incorporated</journal>
<volume>TR-0263-08-94-165</volume>
<month>August</month>
<year>1994</year>
</article>

そのようなデータをアルゴリズムで受け入れられる適切な形式に変換するにはどうすればよいですか? なにか提案を。

ありがとう

score 0 · Accepted Answer

Python を使用している場合は、Element Tree XML パーサーを使用することをお勧めします (ドキュメントは以下に含まれています)。これにより、XML データを解析して Python ディクショナリにすることができ、必要に応じて翻訳することができます。XML データファイルが非常に大きい場合は、大量のメモリ要件を回避するために iterparse を使用すると便利です。

https://docs.python.org/2/library/xml.etree.elementtree.html

xml - Apriori アルゴリズム用の XML データの準備

1 に答える 1

Related

Reference