Python を使用して HTML ファイルからテキストを抽出したいと思います。ブラウザからテキストをコピーしてメモ帳に貼り付けた場合と基本的に同じ出力が必要です。
不適切な形式の HTML で失敗する可能性のある正規表現を使用するよりも、より堅牢なものが必要です。多くの人が Beautiful Soup をすすめているのを見てきましたが、私はそれを使用する際にいくつか問題がありました。1 つは、JavaScript ソースなどの不要なテキストを拾い上げたことです。また、HTML エンティティを解釈しませんでした。たとえば、 ' を期待します。ブラウザーのコンテンツをメモ帳に貼り付けたかのように、テキストのアポストロフィに変換される HTML ソース内。
更新 html2text
は有望に見えます。HTML エンティティを正しく処理し、JavaScript を無視します。ただし、プレーン テキストを正確に生成するわけではありません。プレーンテキストに変換する必要があるマークダウンを生成します。例やドキュメントはありませんが、コードはきれいに見えます。
関連する質問: