複数の Web ソースから情報を集約する単純な J2SE アプリケーションを作成する予定です。
最も難しい部分は、RSS や Atom フィードとして利用できない場合、Web ページから意味のある情報を抽出することだと思います。たとえば、stackoverflow から質問のリストを抽出したい場合がありますが、その巨大なタグ クラウドやナビゲーション バーは絶対に必要ありません。
どのようなテクニック/ライブラリをアドバイスしますか?
アップデート/備考
- 約 5MB の HTML を 10 分以内に解析できる限り、速度は問題ではありません。
- とてもシンプルなはずです。