私はPythonでWebページのレイアウト分析を行っています。基本的なタスクは、HTML ソース コードが与えられた要素のサイズをプログラムで測定することです。これにより、Web ページ コーパスのコンテンツ/広告比率、広告ブロックの位置、広告ブロック サイズの統計データを取得できます。
明白なアプローチは width/height 属性を使用することですが、常に使用できるとは限りません。width: 50%
その上、 DOMにロードした後に計算する必要があるようなもの。したがって、HTML ソース コードを window-size-predefined-browser (ウィンドウのサイズを設定できるかどうかはわかりませんが、mechanize のようなもの) にロードすることは良い方法だと思いますが、mechanize は戻り値をサポートしていません。とにかく要素サイズ。
できればいくつかのライブラリを使用して、Pythonでそれを行うための普遍的な方法(幅/高さ属性なし)はありますか?
ありがとう!