java - 不正な形式の XML/HTML 解析

Question

複数の (約 1600 を読み取る) HTML ページを解析し、各ファイルから次のタグの内容を引き出す必要があります。

    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">欲しいテキストはこちら

(これは実際には html textarea タグを意味します) DOMparser を使用できると思っていましたが、ファイルに含まれるエラーが多すぎるため、stackoverflow に関する別の質問から JTidy に出会い、それを使用しようとしました。 ..

しかし、どのページからでもHTMLをXHTMLに変換できないように見えるので、DOMパーサーを使用できます。

その後、正規表現を使用できると思いましたが、そのテキストをプルするために必要な特定の式を見つけることができませんでした。また、正規表現を使用して HTML を解析しないという複数の質問/回答に出くわしました...

だから本質的に私の質問は、不正なhtmlから必要なテキストを取得するために取るべき他のアプローチはありますか?

score 1 · Accepted Answer

ドキュメントを XHTML に変換しなくても、JTidy を使用してドキュメントを直接解析できるはずです。少し前に認められたことが何度かありましたが、それは私にとってはうまく機能し、非常に醜いHTMLでした。

編集:前回 HTML ファイルを解析する必要があったときに調べた別のオプションは、TagSoup でした。GPLライセンスのため、商用製品では使用できませんでしたが、この機能が内部ツールとしてのみ必要な場合は、うまくいくかもしれません

java - 不正な形式の XML/HTML 解析

1 に答える 1

Related

Reference