0

これはおそらく非常に簡単な作業ですが、助けが見つかりません。www.xyz.com/somestuff/ID という形式の Web サイトがあります。情報が必要な ID のリストがあります。サイトにアクセスして、特定のフォルダーに ID_whatever_the_default_save_name_is という単純な形式で各 ID の (完全な) Web ページをダウンロードするための簡単なスクリプトが必要でした。

簡単な Python スクリプトを実行してこれを実行できますか? 私は手でそれを行うことができます.75ページしかありません.

4

3 に答える 3

0

Mechanizeは、Python で Web をクロールするための優れたパッケージです。問題の簡単な例は次のとおりです。

import mechanize

br = mechanize.Browser()
response = br.open("www.xyz.com/somestuff/ID")
print response

これは単にあなたの URL を取得し、サーバーからの応答を出力します。

于 2013-08-29T04:47:30.103 に答える
-1

Web サイトの HTML コードだけが必要ですか? その場合は、ホスト サイトで url 変数を作成し、ページ番号を追加します。http://www.notalwaysright.comの例でこれを行います。

import urllib.request

url = "http://www.notalwaysright.com/page/"

for x in range(1, 71):
    newurl = url + x
    response = urllib.request.urlopen(newurl)
    with open("Page/" + x, "a") as p:
        p.writelines(reponse.read())
于 2015-06-28T16:27:18.520 に答える