特定のファイルを文字列のリストに解析する必要があります。特定のファイル スタイルは次のとおりです。
<DOC>
<DOCNUM> NUMBER </DOCNUM>
<DOCTYPE> TYPE </DOCTYPE>
<HEADER>
&SOMETHING
</HEADER>
<BODY>
<HEADLINE>
SOME TEXT
</HEADLINE>
TEXT
TEXT
TEXT
<TEXT>
<P>
INPUT TEXT1
</P>
<P>
INPUT TEXT2
</P>
.
.
.
</TEXT>
</BODY>
</DOC>
P タグの外観内のすべての TEXTi インスタンスのリストを作成する必要があります。lxml xml パーサーでこれを実行しようとしましたが、xml 形式では何かが受け入れられないため、機能しませんでした... html パーサーを使用してみましたが、それを機能させる方法が正確にわかりませんでした。
必要なリストを取得するための良い方法を知っている人はいますか?