3

何万ものXMLファイル(小さいサイズのファイル)を含むコーパスがあり、Pythonを使用して、XMLタグの1つに含まれるテキストを抽出しようとしています。たとえば、bodyタグ間のすべてが次のようになります。

<body> sample text here with <bold> nested </bold> tags in this paragraph </body>

次に、この文字列を含むテキストドキュメントを作成し、XMLファイルのリストを下に移動します。

effbotのELementTreeを使用していますが、これを行うための適切なコマンド/構文が見つかりませんでした。miniDOMのdom.getElementsByTagNameを使用しているWebサイトを見つけましたが、ElementTreeに対応するメソッドが何であるかわかりません。任意のアイデアをいただければ幸いです。

4

2 に答える 2

1

私はちょうどreを使用します:

import re
body_txt = re.match('<body>(.*)</body>',body_txt).groups()[0]

次に、内側のタグを削除します。

body_txt = re.sub('<.*?>','',body_txt)

正規表現が必要ない場合は使用しないでください。それは本当です...しかし、必要な場合に使用しても問題はありません。

于 2012-06-18T19:44:52.563 に答える