Web ページをスキャンして、次の情報を取得しようとしています。
色を含む各ブロック (たとえば、「div」、「p」、「a」など) について、取得したい:
1) テキストと背景色
2) 背景色の領域 (ピクセル単位)
3) テキストのフォントサイズ
簡単な作業に思えますが..
問題:
ご存知のように、HTML 要素は親と子から構成されており、色は子によって決定されます(子が定義されておらず、親がスタイルを決定している場合を除きます..)
そのため、すべての子孫を実行してスタイルを取得します。スタイルが定義されていない場合は、親に行ってそこから取得します。
しかし、問題は時々私に完全な情報を与えない子孫がいるということです(「p」タグ内の「強い」タグなど-この場合、「p」タグ内には太字のテキストしかありません..)もう 1 つの問題は、タグが定義されていないにもかかわらず、クライアントに表示される場合です (「table」タグ内に「td」タグがないなど)。
もちろん、この問題を解決するには、親を取得して面積を差し引くことができますが、非常に複雑で実行時間が長くなります。
私の質問: クライアントが見る色の領域を取得するための他の簡単なオプションはありますか?