java - DocumentHTML へのデータの解析

Question

InputStreamReader を使用して Web ページからデータを読み取ると、すべて問題ありません。DocumentHTML へのデータの解析に問題があります。

主な理由は、HTML スクリプトに正しく使用されていない特殊文字が含まれていることです。& 記号が 2 つ ( "&&" ) あり、コードがクラッシュする原因になっていると思います。

私のコードは次のようになります。

URL url = new URL(PageUrl);
URLConnection conn = url.openConnection();
// ... omitted ...

// parsing
HTMLDocument doc = (HTMLDocument)db.parse(conn.getInputStream());

私は Android アプリケーションを作成しているので、DocumentHTML オブジェクトが大きくなりすぎるため、標準の解析関数は使用しません。

jsoup を使用するなど、HTML を解析する既存の例を多数見つけましたが、それらは私が望むものではありません。

HTMLDocument オブジェクトが小さく保たれるように、解析用の独自のコードを記述したいと考えています。

score 0 · Accepted Answer

Java で利用可能なすべての Html パーサーを使用しないのはなぜですか? 彼らはコミュニティのサポートを持っているので、最良の選択肢です.

Java でのオープンソース HTML パーサー

java - DocumentHTML へのデータの解析

1 に答える 1

Related

Reference