HTML をプレーン テキストに変換したいが、最小限の構造を保持したい。
- <script> や <style> など、ブラウザーのみが表示する必要があるものを含むすべてのセクションを完全に削除します。
- すべてのブロック タグを <div> に変換し、すべてのインライン タグを <span> に変換するか、空白を残さずにインラインを完全に削除し、ブロック レベルで区切られたものを 2 つの改行のある段落に変換します。
このアイデアは、ランダムな Web ページを自然言語テキスト処理に適したものに変えることであり、単純にマークアップを削除したり、単語を人為的に分割したり、無関係なブロックを文のように見せたりすることでアーティファクトが残ることはありません。
任意のプログラミング言語の任意のバイナリ、ライブラリ、またはソースで問題ありません。
ブロック、インライン、および上記の <script> と <style> のような要素の完全なリストを備えた、できれば機械で読み取り可能な標準ソースはありますか?