-2

HTML クレンジングを実行する必要があります。

冗長な br タグがたくさんある HTML があるので、これまで HtmlCleaner と jTidy を試してみましたが、結果はありませんでした。

例:

<br>
<br>
<br>
<br>
...

私が欲しいのは、シングル<br>バックを手に入れることだけです

行ごとに手動で解析せずにこれを達成する他の方法はありますか?

4

1 に答える 1

0

不要なタグのみを削除しようとしている場合は、 Jericho<br/>を使用して解析を行う単純な解析ステート マシンをお勧めします。Jericho はデータの保存に非常に優れているからです。

ステート マシンは、最後に表示されたタグを単純に保持し、最後に表示されたタグが<br/>タグであり、次のタグが<br/>タグである場合は、単純にそれを省略します。とても簡単なエクササイズですので、ぜひお試しください。手動のテキスト解析 (つまり、HTML パーサーを使用しない) はエラーが発生しやすいのでお勧めしません。

また、人々がタグをどのように使用しても<br/>、それは明示的なコンテンツ タグであることを思い出してください。したがって、タグを削除すると、コンテンツが変更されます。おそらく、一部の HTML をスクレイピングする代わりに、XML フィード、REST API、データベースなどのより構造化されたソースからコンテンツを取得します。

于 2014-11-11T17:05:26.000 に答える