python - Pythonでxml解析を実行する効率的な方法

Question

2 つのクラスのデータを含む (30GB) の XML ファイルがあります。クラス 1 のデータには対応するデータがあります。

<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>

ここでのタスクは、クラス 1 の本体と対応するクラス 2 の本体を抽出することです。

class1's id(11)== MatchingClass1Id of class2(which is 9999890)

私はPythonで文字列比較を使用して同じことを達成しています...ファイルサイズが30 GBであることを考慮して、Pythonで同じことを達成するためのより効率的な方法はありますか

score 4 · Accepted Answer

LXMLのiterparse関数を使用します。非常に大きなファイルで使用する方法については、 IBM DeveloperWorks の記事を参照してください。

score -1 · Accepted Answer

lxml は目的に適しています。また、あなたは初心者なので、基本を理解するにはチュートリアルを参照してください。

すべての iterparse メソッドは、問題を解決するための効率的な方法です

2 に答える 2