0

スクリプトを使用してウィキペディアからテキストをダウンロードするために私が見つけた唯一の信頼できる方法は、cURL を使用することです。これまでのところ、それを行う唯一の方法はos.system(). 出力は Python シェルで適切に表示されますが、終了コード ( ) 以外のものを返す関数には思えません0。あるいは、誰かが を適切に使用する方法を示すことができますurllib

4

3 に答える 3

7

Dive into Pythonから:

import urllib
sock = urllib.urlopen("http://en.wikipedia.org/wiki/Python_(programming_language)")
htmlsource = sock.read()
sock.close()
print htmlsource

これにより、Python ウィキペディアの記事のソース コードが出力されます。詳細については、Dive into Python をご覧になることをお勧めします。

Python ライブラリ リファレンスの urllib2 を使用した例:

import urllib2
f = urllib2.urlopen('http://www.python.org/')
print f.read(100)

編集: wget も参照してください。
Edit2: S.Lott のアドバイスに基づいて urllib2 の例を追加

于 2008-12-09T01:01:28.427 に答える
2

質問に答えると、Python にはサブプロセス モジュールがあり、生成されたプロセスと対話できます。http://docs.python.org/library/subprocess.html#subprocess.Popen

呼び出されたプロセスの stdout を読み取ったり、項目を stdin に送信したりすることもできます。

ただし、あなたが言ったように、urllib ははるかに優れたオプションです。stackoverflowを検索すると、他に少なくとも 10 の関連する質問が見つかるはずです...

于 2008-12-09T00:55:36.160 に答える
0

urllib の代わりに、 libCurl Python bindingsを使用できます。

于 2008-12-09T01:00:21.877 に答える