全て -
を使用して、次の非常に単純な XML ドキュメント構造を解析しようとしています。
from xml.dom.minidom import parse
XML は次のようになります。
<?xml version="1.0" encoding="utf-8"?>
<list>
<file name="..." url="...">
<words>
word_1
word_2
...
私が抱えている問題は、XML に、文字列のリストとしてアクセスしたい単語のリストが含まれていることです...そして、私はそれを正しく理解できないようです。これまでのところ、コードに関して私が持っているものは次のとおりです。
import sys
from xml.dom.minidom import parse
for file in sys.argv[1:]:
dom = parse( file )
title = dom.getElementsByTagName( 'job_ad' )[0].getAttribute( 'title' )
# This works
words = dom.getElementsByTagName( 'unigrams' )[0].childNodes[0]
# This is NOT a list of strings ...
このコードのデータ構造「words」を繰り返し処理したいと思います。より強力な XML モジュールが利用できることは知っていますが、今のところ、ここに示すモジュールでこれを解決したいと思います。
これについての助けは大歓迎です。
よろしくお願いいたします -
パット