HTMLファイル(utf-8でエンコード)があります。で開きますcodecs.open()
。ファイルアーキテクチャは次のとおりです。
<html>
// header
<body>
// some text
<table>
// some rows with cells here
// some cells contains tables
</table>
// maybe some text here
<table>
// a form and other stuff
</table>
// probably some more text
</body></html>
最初のテーブルのみを取得する必要があります(フォームのあるテーブルを破棄します)。<table>
最初の前と対応する後のすべての入力を省略します</table>
。一部のセルには、段落、太字、スクリプトも含まれています。メインテーブルの行ごとにネストされたテーブルは1つだけです。
それを抽出して行のリストを取得するにはどうすればよいですか?各要素はプレーン(ユニコード文字列)セルのデータとネストされた各テーブルの行のリストを保持しますか?ネストのレベルは1つだけです。
HTMLParse、PyParse、およびreモジュールを試しましたが、これを機能させることができません。私はPythonにまったく慣れていません。