3

<br>問題は単純です。HTMLテキストをプレーンテキストに変換したいのですが、リストのorタイトルタグ、数字またはマーカーなどに改行を入れるように考えています。

現在、これを行うためにBoilerPipeを使用していますが、これはこのライブラリの主なターゲットではありません。これを行うことができる別のものがありますか?

4

2 に答える 2

1

私はSelenium用のJavaライブラリが本当に好きです。getBodyText()を使用して、htmlタグが削除され、適切にフォーマットされたプレーンな本文テキストを取得します。

見る...

Selenium java API

于 2011-09-05T03:52:56.877 に答える
0

XMLパーサーを使用するのはどうですか?そうすれば、間隔と改行を制御できます。

CSSの構文解析などの問題が発生するため、本格的なHTMLパーサーとフォーマッターが利用できるかどうかは疑問です。

于 2011-09-05T03:56:25.737 に答える