2

私は Python でプログラミングを始めており、re ではなくテキストから URL を取得するには HTML パーサーを使用する必要があるという投稿をいくつか読んでいます。

と で取得したソース コードがpage.read()ありurllibますurlopen

さて、私の問題は、パーサーがテキストから URL 部分を削除していることです。

また、正しく読んだ場合var = page.read()varは文字列として保存されますか?

2 つの「タグ」の間のテキストを表示するにはどうすればよいですか? URL は常にflv=and so の間にあるため、パーサーが検索するもので;始まることはなく、どちらも含まれていません。hrefhttp://

多くの投稿を読みましたが、それらはすべてコード内で ``href'' を探しているようです。

私はそれをすべて完全に間違っていますか?

ありがとうございました!

4

1 に答える 1

0

独自の検索/グラブを実装することを検討できます。疑似コードでは、次のようになります。

find location of 'flv=' in HTML = location_start
find location of ';' in HTML = location_end
grab everything in between:   HTML[location_start : location_end]

これをPythonで実装できるはずです。

幸運を!

于 2013-03-24T21:07:22.087 に答える