私はあらゆる方法を試してきましたが、何をしても空白の出力が得られます。これは、インポートして解析しようとしているファイルの短縮版です。
<PRESOL>
<DATE>0310
<AGENCY>Defense Logistics Agency
<DESC>*(this is full of HTML tags and the such)*
<URL>https://www.fbo.gov/spg/DLA/J3/DSCR-BSM/SPE4A713R0575/listing.html
<SETASIDE>N/A
</PRESOL>
「PRESOL」タグの間にはこのような数百のエントリがあるため、DATE、AGENCY、DESC、URL、および SETASIDE ごとに列を持つテーブルを作成したいと思います。各タグのデータの後にリターンもあります。これは、Python に取り込むと「\n」として表示されます。これまでに試した正規表現は次のとおりです(sはファイルを読み込んだ変数で、reはインポートされています):
testall = re.findall(r'<PRESOL>\n<DATE>(.*?)\n<AGENCY>(.*?)\n<DESC>(.*?)\n<URL>(.*?)\n<SETASIDE>(.*?)\n</PRESOL>', s)
「\n」なしで、(.*?) の代わりに (.+?) を使用してこれを試しました。
私を助けるためにさらに情報が必要な場合はお知らせください。どんな助けも大歓迎です。私の最終的な目標は、ftp: //ftp.fbo.gov/FBOFeed20130311からデータを簡単にインポートできるようにすることです (複数のテーブル タイプがあるようですが、この概念実証をオフにするためだけに、現時点では PRESOL に焦点を当てています地面。