0

サイトからデータを取得するクローラーを構築しています。これまでのところ、コードをテストするために 1 つの URL にアクセスしただけです。私が使用していたコードはしばらくの間問題なく動作していましたが、今ではエラーが発生しています。

私はPythonを学んでいるので、何をすべきか完全にはわかりません。ソケットのタイムアウトを 100 に設定してみましたが、何も変わりませんでした。これを解決する方法についてのアイデアはありますか?

これは、HTML コードを取得する方法です。

project_html = urlopen(item).read()

私が得ているエラー:

Traceback (most recent call last):
  File "linkscanner.py", line 76, in <module>
project_html = urlopen(item).read()
  File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
return _opener.open(url, data, timeout)
  File "/usr/lib/python2.7/urllib2.py", line 393, in open
protocol = req.get_type()
  File "/usr/lib/python2.7/urllib2.py", line 255, in get_type
raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: h
4

0 に答える 0