Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
<br>問題は単純です。HTMLテキストをプレーンテキストに変換したいのですが、リストのorタイトルタグ、数字またはマーカーなどに改行を入れるように考えています。
<br>
現在、これを行うためにBoilerPipeを使用していますが、これはこのライブラリの主なターゲットではありません。これを行うことができる別のものがありますか?
私はSelenium用のJavaライブラリが本当に好きです。getBodyText()を使用して、htmlタグが削除され、適切にフォーマットされたプレーンな本文テキストを取得します。
見る...
Selenium java API
XMLパーサーを使用するのはどうですか?そうすれば、間隔と改行を制御できます。
CSSの構文解析などの問題が発生するため、本格的なHTMLパーサーとフォーマッターが利用できるかどうかは疑問です。