jsoup - Jsoup で巨大な HTML ストリームを解析する

Question

非常に大きな HTML ストリーム/ファイルの解析にどのように取り組むかについて、誰かが指針やアドバイスを提供できますか? たとえば、約 270,000 行のテーブルがあり、一度に約 20,000 行をアプリに取り込みたいと考えています。jsoup parse メソッドは HTML のフラグメントを許可しますが、このフラグメントを表す XXX バイトを読み取るための最も効率的でクリーンな方法については、私にはわかりません。

どんな助けでも大歓迎です。

score 0 · Accepted Answer

それが XHTML であり、一度にすべてをメモリに保持する必要がない場合は、SAX パーサーを使用し、開始タグイベントと終了タグイベントを使用して必要なデータを取得する方がよいでしょう。

もう 1 つの考えは、StAX パーサーかもしれません。

jsoup - Jsoup で巨大な HTML ストリームを解析する

1 に答える 1

Related

Reference