次の構造の多くのインスタンスのように見える HTML テキストがあります。
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FIRST>Reports Former Saigon Officials Released from Re-education Camp</FIRST>
<TEXT>
Lots of text here
</TEXT>
</DOC>
<DOC>
<DOCNO> YYYY-0001 </DOCNO>
<FIRST>AP-ONU-ISRAEL -URGENT-</FIRST>
<TEXT>
Text
</TEXT>
</DOC>
etc, etc...
私がする必要があるのは、DocNo、First、および Text を使用して各構造にインデックスを付け、後で分析 (トークン化など) することです。
BeautifulSoup を使おうと考えていたのですが、複数のものをまとめて抽出する必要があります。
次のような形式を希望します。
[(XXX-2222, "Reports Former Saigon Officials Released from Re-education Camp", "Lots of text here"), (YYYY-0001, "AP-ONU-ISRAEL -URGENT-", "Text"), etc...)
ありがとうございました!
S.