python - 保存した Web ページの元の URL を取得する

Question

Python と lxml ライブラリを使用して、保存された Web ページを解析しています。

保存された Web ページの docinfo は、保存された Web ページのディスクの場所を示します。

storedHtmlDoc.docinfo.URL

保存したページから元の URl を抽出する方法はありますか?

score 1 · Accepted Answer

ダウンロードしたページの URL をどこかに保存していない場合、そのページは利用できません。

ダウンロードプロセスを制御できる場合は、ダウンロードしたページの URL をページの META タグ内に配置できます。

1 に答える 1