0

2 つのクラスのデータを含む (30GB) の XML ファイルがあります。クラス 1 のデータには対応するデータがあります。

<id="11" class="1" bestmatchingid="50" Body="abc"> </id>
.
.
.
<id="9999890" class="2" MatchingClass1Id="11" Body="xyz"></id>

ここでのタスクは、クラス 1 の本体と対応するクラス 2 の本体を抽出することです。

class1's id(11)== MatchingClass1Id of class2(which is 9999890)

私はPythonで文字列比較を使用して同じことを達成しています...ファイルサイズが30 GBであることを考慮して、Pythonで同じことを達成するためのより効率的な方法はありますか

4

2 に答える 2

4

LXMLiterparse関数を使用します。非常に大きなファイルで使用する方法については、 IBM DeveloperWorks の記事を参照してください。

于 2012-04-05T09:54:15.517 に答える
-1

lxml は目的に適しています。また、あなたは初心者なので、基本を理解するにはチュートリアルを参照してください。

http://infohost.nmt.edu/tcc/help/pubs/pylxml/web/etree-view.html

すべての iterparse メソッドは、問題を解決するための効率的な方法です

于 2012-04-05T19:50:23.840 に答える