サイトからデータを取得するクローラーを構築しています。これまでのところ、コードをテストするために 1 つの URL にアクセスしただけです。私が使用していたコードはしばらくの間問題なく動作していましたが、今ではエラーが発生しています。
私はPythonを学んでいるので、何をすべきか完全にはわかりません。ソケットのタイムアウトを 100 に設定してみましたが、何も変わりませんでした。これを解決する方法についてのアイデアはありますか?
これは、HTML コードを取得する方法です。
project_html = urlopen(item).read()
私が得ているエラー:
Traceback (most recent call last):
File "linkscanner.py", line 76, in <module>
project_html = urlopen(item).read()
File "/usr/lib/python2.7/urllib2.py", line 127, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.7/urllib2.py", line 393, in open
protocol = req.get_type()
File "/usr/lib/python2.7/urllib2.py", line 255, in get_type
raise ValueError, "unknown url type: %s" % self.__original
ValueError: unknown url type: h