python - Pythonで「HTMLで書かれた」URLを使用してHTMLコードを解析するにはどうすればよいですか?

Question

私は Python でプログラミングを始めており、re ではなくテキストから URL を取得するには HTML パーサーを使用する必要があるという投稿をいくつか読んでいます。

とで取得したソースコードがpage.read()ありurllibますurlopen。

さて、私の問題は、パーサーがテキストから URL 部分を削除していることです。

また、正しく読んだ場合var = page.read()、varは文字列として保存されますか?

2 つの「タグ」の間のテキストを表示するにはどうすればよいですか? URL は常にflv=and so の間にあるため、パーサーが検索するもので;始まることはなく、どちらも含まれていません。hrefhttp://

多くの投稿を読みましたが、それらはすべてコード内で ``href'' を探しているようです。

私はそれをすべて完全に間違っていますか？

ありがとうございました！

score 0 · Accepted Answer

独自の検索/グラブを実装することを検討できます。疑似コードでは、次のようになります。

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

これをPythonで実装できるはずです。

幸運を！

python - Pythonで「HTMLで書かれた」URLを使用してHTMLコードを解析するにはどうすればよいですか?

1 に答える 1

Related

Reference