python - PythonElementTreeを使用してXMLタグのテキストを抽出する

Question

何万ものXMLファイル（小さいサイズのファイル）を含むコーパスがあり、Pythonを使用して、XMLタグの1つに含まれるテキストを抽出しようとしています。たとえば、bodyタグ間のすべてが次のようになります。

<body> sample text here with <bold> nested </bold> tags in this paragraph </body>

次に、この文字列を含むテキストドキュメントを作成し、XMLファイルのリストを下に移動します。

effbotのELementTreeを使用していますが、これを行うための適切なコマンド/構文が見つかりませんでした。miniDOMのdom.getElementsByTagNameを使用しているWebサイトを見つけましたが、ElementTreeに対応するメソッドが何であるかわかりません。任意のアイデアをいただければ幸いです。

score 1 · Accepted Answer

私はちょうどreを使用します：

import re
body_txt = re.match('<body>(.*)</body>',body_txt).groups()[0]

次に、内側のタグを削除します。

body_txt = re.sub('<.*?>','',body_txt)

正規表現が必要ない場合は使用しないでください。それは本当です...しかし、必要な場合に使用しても問題はありません。

python - PythonElementTreeを使用してXMLタグのテキストを抽出する

2 に答える 2

Related

Reference