いくつかの html ファイルを保存し、名前を変更しました。PythonでhtmlファイルのURLを抽出できる方法はありますか。
編集: .html ファイルの URL を見つけたいのですが、そこにあるリンクではありません。多くのファイルがあるため、一般化されたアプローチを探しています。
ファイル自体にその URL が含まれている場合にのみ可能ですが、これはあまり一般的ではありません。したがって、ダウンロードしたファイルによって異なります。<link rel="canonical" ...>
これは、検索エンジンが正規アドレスを Web ページに公開することを推奨する方法であるため、 を探します。そのタグがあれば、その URL を使用できます。
そうでなければ、あなたは運が悪いです。ドキュメントと一緒に URL を保存するには、スパイダーを書き直す必要があります。