私はいくつかのhtml解析をしようとしています。私はいくつかの非常に動的なデータを扱っており、私のソースは大きく異なります。より具体的に言えば、事前に知らないページから、名前、価格、説明などの製品情報を解析しようとしています。
これらのページ全体で変わらない基本的な情報は、ページのタイトル、クエリしているアイテムの名前 (両方とも一致します)、および価格だけです。異なる Web サイトで同じままである唯一の実際のロジックは、異なる情報セット間の近接性です。したがって、価格ラベルは製品名とその説明に近いものになります。
異なる html タグ間のピクセル単位の距離に基づいて解析を絞り込むことができる html パーサーを探しています。
あなたはそのような図書館を知っていますか?この問題に取り組む他の方法はありますか?
編集:
言語、OS、解像度は問題ありません。この問題に役立つ可能性のあるツールは何ですか? 十分なライブラリが見つかったら、基盤となる OS と言語を変更することにするかもしれません。