5

非常に大きな HTML ストリーム/ファイルの解析にどのように取り組むかについて、誰かが指針やアドバイスを提供できますか? たとえば、約 270,000 行のテーブルがあり、一度に約 20,000 行をアプリに取り込みたいと考えています。jsoup parse メソッドは HTML のフラグメントを許可しますが、このフラグメントを表す XXX バイトを読み取るための最も効率的でクリーンな方法については、私にはわかりません。

どんな助けでも大歓迎です。

4

1 に答える 1

0

それが XHTML であり、一度にすべてをメモリに保持する必要がない場合は、SAX パーサーを使用し、開始タグ イベントと終了タグ イベントを使用して必要なデータを取得する方がよいでしょう。

もう 1 つの考えは、StAX パーサーかもしれません。

于 2012-09-26T20:57:12.300 に答える