HTML テーブルを読みやすいプレーン テキストにきれいに変換する方法を探しています。
つまり、次の入力が与えられます。
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
出力が期待されます:
Height: 200
Width: 440
外部ツールを使用しないことをお勧めします。たとえばw3m -dump file.html
、(1) プラットフォームに依存するため、(2) プロセスをある程度制御したい場合、および (3) 追加のモジュールの有無にかかわらず Python だけで実行できると想定するためです。
ワードラップや調整可能なセル区切り幅は必要ありません。タブをセル区切りとして使用するだけで十分です。
アップデート
これは、古いユースケースに対する古い質問でした。pandas が read_html method を提供していることを考えると、私の現在の答えは間違いなくpandas -basedです。