0

Python と lxml ライブラリを使用して、保存された Web ページを解析しています。

保存された Web ページの docinfo は、保存された Web ページのディスクの場所を示します。

storedHtmlDoc.docinfo.URL

保存したページから元の URl を抽出する方法はありますか?

4

1 に答える 1

1

ダウンロードしたページの URL をどこかに保存していない場合、そのページは利用できません。

ダウンロード プロセスを制御できる場合は、ダウンロードしたページの URL をページの META タグ内に配置できます。

于 2013-04-24T08:20:28.507 に答える