-1

いくつかの html ファイルを保存し、名前を変更しました。PythonでhtmlファイルのURLを抽出できる方法はありますか。

編集: .html ファイルの URL を見つけたいのですが、そこにあるリンクではありません。多くのファイルがあるため、一般化されたアプローチを探しています。

4

1 に答える 1

5

ファイル自体にその URL が含まれている場合にのみ可能ですが、これはあまり一般的ではありません。したがって、ダウンロードしたファイルによって異なります。<link rel="canonical" ...>これは、検索エンジンが正規アドレスを Web ページに公開することを推奨する方法であるため、 を探します。そのタグがあれば、その URL を使用できます。

そうでなければ、あなたは運が悪いです。ドキュメントと一緒に URL を保存するには、スパイダーを書き直す必要があります。

于 2015-05-19T09:24:11.197 に答える