タグ内に含まれる特定の DOI を記事の XML ファイルから検索するコードを作成しようとしています。正しい DOI が見つかったら、その DOI に関連付けられた記事の<title>
とテキストにアクセスするようにします。<abstract>
私の XML ファイルは次の形式です。
<root>
<article>
<number>
0
</number>
<DOI>
10.1016/B978-0-12-381015-1.00004-6
</DOI>
<title>
The patagonian toothfish biology, ecology and fishery.
</title>
<abstract>
lots of abstract text
</abstract>
</article>
<article>
...All the article tags as shown above...
</article>
</root>
スクリプトで DOI 10.1016/B978-0-12-381015-1.00004-6 (たとえば) の記事を検索し、対応するタグ内の<title>
およびタグにアクセスできるようにしたいと考えています。<abstract>
<article>
これまでのところ、この質問からコードを適応させようとしました:
from xml.dom import minidom
datasource = open('/Users/philgw/Dropbox/PW-Honours-Project/Code/processed.xml')
xmldoc = minidom.parse(datasource)
#looking for: 10.1016/B978-0-12-381015-1.00004-6
matchingNodes = [node for node in xmldoc.getElementsByTagName("DOI") if node.firstChild.nodeValue == '10.1016/B978-0-12-381015-1.00004-6']
for i in range(len(matchingNodes)):
DOI = str(matchingNodes[i])
print DOI
しかし、私は自分が何をしているのか完全にはわかりません!
助けてくれてありがとう。