HTML クレンジングを実行する必要があります。
冗長な br タグがたくさんある HTML があるので、これまで HtmlCleaner と jTidy を試してみましたが、結果はありませんでした。
例:
<br>
<br>
<br>
<br>
...
私が欲しいのは、シングル<br>
バックを手に入れることだけです
行ごとに手動で解析せずにこれを達成する他の方法はありますか?
HTML クレンジングを実行する必要があります。
冗長な br タグがたくさんある HTML があるので、これまで HtmlCleaner と jTidy を試してみましたが、結果はありませんでした。
例:
<br>
<br>
<br>
<br>
...
私が欲しいのは、シングル<br>
バックを手に入れることだけです
行ごとに手動で解析せずにこれを達成する他の方法はありますか?
不要なタグのみを削除しようとしている場合は、 Jericho<br/>
を使用して解析を行う単純な解析ステート マシンをお勧めします。Jericho はデータの保存に非常に優れているからです。
ステート マシンは、最後に表示されたタグを単純に保持し、最後に表示されたタグが<br/>
タグであり、次のタグが<br/>
タグである場合は、単純にそれを省略します。とても簡単なエクササイズですので、ぜひお試しください。手動のテキスト解析 (つまり、HTML パーサーを使用しない) はエラーが発生しやすいのでお勧めしません。
また、人々がタグをどのように使用しても<br/>
、それは明示的なコンテンツ タグであることを思い出してください。したがって、タグを削除すると、コンテンツが変更されます。おそらく、一部の HTML をスクレイピングする代わりに、XML フィード、REST API、データベースなどのより構造化されたソースからコンテンツを取得します。