たくさんのテキストを含む xml ファイルがたくさんあります。このテキストは、小文字にして句読点を削除する必要があります。しかし、Pythonを使用してすべてのタグを無視するように言う方法がわかりません。
ElementTree という xml パーサーを見つけました。タグを見つけるための正規表現があります。
pattern = re.compile ('<[^<]*?>')
テストしたところ、最初のタグのテキストのみが表示されます( という名前のタグがたくさんあります)。なんで?
すべてのタグを取得するために、文字列でテストして別のテストを行います。
text = "<root> <test>aaaaaaa </test> <test2> bbbbbbbbb </test2> </root> <root> <test3> cccccc </test3> <test4> ddddd </test4> </root>"
pattern = re.compile ('<[^<]*?>')
tmp = pattern.findall(content, re.DOTALL)
そしてそれは私に与えます:
['</test>', '<test2>', '</test2>', '</root>', '<root>', '<test3>', '</test3>', '<test4>', '</test4>', '</root>']
なぜそうしない<root> <test>
のですか?