私はいくつかのWebデータ分類タスクを実行しており、Webページで参照されているcssまたはjavascriptを考慮せずに、Webブラウザーに表示されるHTML要素の座標を取得できるかどうかを考えていました。
私のプログラミング言語はC++であり、数百万ページの結果が必要なので、高速である必要があります。Webブラウザコントロールでページをレンダリングし、さまざまなhtmlタグの位置を照会できるMicrosoftCOMコンポーネントがあることを私は知っています。しかし、これは最初にページ全体をレンダリングするため、多くの時間がかかるため、私の場合には適していません。
だから私が知ったように、おそらくこれに使用できるオープンソースのレイアウトエンジンWebKit、Geckoがあります。しかし、それは巨大なコードであり、誰かが以前に行った適切なクラスやモジュール、または以前に行った/同様の作業を調べるように指示する必要があります。また、既存のコードを複数のスレッドで使用できるようにカスタマイズして高速化する場合は、皆さんが良い選択だと思うことを教えてください。
ありがとう