複数の (約 1600 を読み取る) HTML ページを解析し、各ファイルから次のタグの内容を引き出す必要があります。
textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">欲しいテキストはこちら
(これは実際には html textarea タグを意味します) DOMparser を使用できると思っていましたが、ファイルに含まれるエラーが多すぎるため、stackoverflow に関する別の質問から JTidy に出会い、それを使用しようとしました。 ..
しかし、どのページからでもHTMLをXHTMLに変換できないように見えるので、DOMパーサーを使用できます。
その後、正規表現を使用できると思いましたが、そのテキストをプルするために必要な特定の式を見つけることができませんでした。また、正規表現を使用して HTML を解析しないという複数の質問/回答に出くわしました...
だから本質的に私の質問は、不正なhtmlから必要なテキストを取得するために取るべき他のアプローチはありますか?