7

プロジェクトのCivicCommonsAppsリンクからデータを抽出しようとしています。必要なページのリンクを取得できます。しかし、リンクを開こうとすると、「urlopenエラー[Errno-2]名前またはサービスが不明です」というメッセージが表示されます。

WebスクレイピングPythonコード:

from bs4 import BeautifulSoup
from urlparse import urlparse, parse_qs
import re
import urllib2
import pdb

base_url = "http://civiccommons.org"
url = "http://civiccommons.org/apps"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

list_of_links = [] 

for link_tag in soup.findAll('a', href=re.compile('^/civic-function.*')):
   string_temp_link = base_url+link_tag.get('href')
   list_of_links.append(string_temp_link)

list_of_links = list(set(list_of_links)) 

list_of_next_pages = []
for categorized_apps_url in list_of_links:
   categorized_apps_page = urllib2.urlopen(categorized_apps_url)
   categorized_apps_soup = BeautifulSoup(categorized_apps_page.read())

   last_page_tag = categorized_apps_soup.find('a', title="Go to last page")
   if last_page_tag:
      last_page_url = base_url+last_page_tag.get('href')
      index_value = last_page_url.find("page=") + 5
      base_url_for_next_page = last_page_url[:index_value]
      for pageno in xrange(0, int(parse_qs(urlparse(last_page_url).query)['page'][0]) + 1):
         list_of_next_pages.append(base_url_for_next_page+str(pageno))
      
   else:
      list_of_next_pages.append(categorized_apps_url)

次のエラーが発生します。

urllib2.urlopen(categorized_apps_url)
  File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 400, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 418, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
    raise URLError(err)
urllib2.URLError: <urlopen error [Errno -2] Name or service not known>

urlopenを実行するときに、特定のことを処理する必要がありますか?取得したhttpリンクに問題がないためです。

[編集]2回目の実行で、次のエラーが発生しました。

 File "/usr/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 400, in open
    response = self._open(req, data)
  File "/usr/lib/python2.7/urllib2.py", line 418, in _open
    '_open', req)
  File "/usr/lib/python2.7/urllib2.py", line 378, in _call_chain
    result = func(*args)
  File "/usr/lib/python2.7/urllib2.py", line 1207, in http_open
    return self.do_open(httplib.HTTPConnection, req)
  File "/usr/lib/python2.7/urllib2.py", line 1177, in do_open
    raise URLError(err)

同じコードは私の友人のMacでも問題なく動作しますが、私のubuntu12.04では失敗します。

また、スクレーパーwikiでコードを実行してみましたが、正常に終了しました。しかし、いくつかのURLが欠落していました(macと比較した場合)。これらの動作の理由はありますか?

4

2 に答える 2

4

このコードは私のMacと友達のMacで動作します。Ubuntu12.04サーバーの仮想マシンインスタンスから正常に実行されます。あなたの特定の環境には明らかに何かがあります-あなたのOS(Ubuntuデスクトップ?)またはネットワークがそれを壊してしまいます。たとえば、私のホームルーターのデフォルト設定では、同じドメインへの呼び出し数がx秒で抑制されます。これをオフにしないと、この種の問題が発生する可能性があります。それは多くのことかもしれません。

この段階で、コードをリファクタリングして、URLError問題のあるURLをキャッチし、再試行のために取っておくことをお勧めします。また、数回の再試行後にエラーが失敗した場合は、エラーをログに記録/印刷します。たぶん、エラーの合間にあなたの呼び出しの時間を計るためにいくつかのコードを投入することさえあります。スクリプトを完全に失敗させるよりも優れており、問題の原因となっている特定のURLだけなのか、タイミングの問題なのか(つまり、x回のurlopen呼び出し後に失敗するのか、 x回後に失敗するのか)に関するフィードバックが得られます。 urlopenxマイクロ/秒の呼び出しの量)。タイミングの問題である場合はtime.sleep(1)、ループに挿入するだけでうまくいく可能性があります。

于 2012-07-23T06:39:40.370 に答える
4

SyncMaster、

私は最近、しばらく遊んでいない古いubuntuボックスにジャンプした後、同じ問題に遭遇しました。この問題は、実際にはマシンのDNS設定が原因で発生します。DNS設定(/etc/resolv.confおよびnameserver 8.8.8.8を追加)を確認してから再試行することを強くお勧めします。成功するはずです。

于 2013-09-08T05:24:41.113 に答える