問題タブ [iterparse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - getchildren() の ElementTree インターパースの問題
特定の (しかし正しい) XML 構造がiterparse
機能に影響を与える可能性があるケースを見つけました。
結果は次のとおりです。
iterparse
によって提供される子ノードの数とは異なる数を返すのは奇妙に見えますparse
。
xml ファイルは少し長いです (いくつかのノードを削除するiterparse
と、の場合と同じ値が返されますparse
):
python - すべての子孫を含む、選択した要素の Python tree.iterparse エクスポート ソース XML
Python 3.4、etree.iterparse を使用して GB++ サイズの XML ウィキペディア ダンプ ファイルを解析します。後者の値に応じて、現在一致する<page>
要素内でその値をテストしたいと思います。次に、オブジェクト全体のソース XML と、その中にネストされた要素を含むすべてのコンテンツ、つまり記事全体の XML をエクスポートします。<ns>
<page>
オブジェクトを反復して<page>
必要なものを見つけることができますが、使用可能なすべての関数がテキスト/属性値を読み取りたいように見えますが、ソースファイルの XML コードの utf8 文字列コピーがスコープ内の完全な<page>
オブジェクトに必要なだけです。これは可能ですか?
XML の簡略版は次のようになります。
<ns>
値テストを実行するための Python コードは次のとおりです。
この場合、2 番目の要素、つまり以下を保持する文字列のみの XML コードを抽出したいと思います。<page>
編集:マイナーなタイプミスとより良いマークアップ