私は Python でプログラミングを始めており、re ではなくテキストから URL を取得するには HTML パーサーを使用する必要があるという投稿をいくつか読んでいます。
と で取得したソース コードがpage.read()
ありurllib
ますurlopen
。
さて、私の問題は、パーサーがテキストから URL 部分を削除していることです。
また、正しく読んだ場合var = page.read()
、var
は文字列として保存されますか?
2 つの「タグ」の間のテキストを表示するにはどうすればよいですか? URL は常にflv=
and so の間にあるため、パーサーが検索するもので;
始まることはなく、どちらも含まれていません。href
http://
多くの投稿を読みましたが、それらはすべてコード内で ``href'' を探しているようです。
私はそれをすべて完全に間違っていますか?
ありがとうございました!