私は野生のランディングページの束を比較しています。メイン ヘッダーと行動を促すフレーズを抜き出そうとしていますが、もちろん、ページの HTML 形式は大きく異なります。
ヘッダータグが優先度に対応していると仮定して、H1、H2 などを探し始めましたが、多くの場合、そうではありません。レンダリングされた font-size* の方が適切な指標かもしれませんが、これは面倒なようで、alt タグ付きの画像が使用されている場合には対応できません。
Nokogiri を使用して 100 のワイルドなランディング ページのメインの見出しを識別するための良い戦略は何ですか?
*また、レンダリングされたフォントサイズの賢いセレクターはありますか?