次の構造の多くのインスタンスのように見えるHTMLテキストがあります。
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FILEID>AP-NR-02-12-88 2344EST</FILEID>
<HEAD>Reports Former Saigon Officials Released from Re-education Camp</HEAD>
<TEXT>
Lots of text here
</TEXT>
</DOC>
私がする必要があるのは、後で分析するために(トークン化など)、DocNo、Headline、およびTextを使用して各構造にインデックスを付けることです。
私はBeautifulSoupを使用することを考えていました、そしてこれは私がこれまでに持っているコードです:
soup = BeautifulSoup (file("AP880212.html").read())
num = soup.findAll('docno')
しかし、これは私に次の形式の結果を与えるだけです:
<docno> AP880212-0166 </docno>, <docno> AP880212-0167 </docno>, <docno> AP880212-0168 </docno>, <docno> AP880212-0169 </docno>, <docno> AP880212-0170 </docno>
<>内の数字を抽出するにはどうすればよいですか?そして、それらを見出しやテキストにリンクしますか?
どうもありがとうございます、
サーシャ