私は次のコードを持っています(gdaten [n] [2]はURLを与え、nはインデックスです):
try:
p=urlparse(gdaten[n][2])
while p.scheme == "javascript" or p.scheme == "mailto":
p=urlparse(gdaten[n][2])
print(p," was skipped (", gdaten[n][2],")")
n += 1
print ("check:", gdaten[n][2])
f = urllib.request.urlopen(gdaten[n][2])
htmlcode = str(f.read())
parser = MyHTMLParser(strict=False)
parser.feed(htmlcode)
except urllib.error.URLError:
#do some stuff
except IndexError:
#do some stuff
except ValueError:
#do some stuff
今、私は次のエラーがあります:
urllib.error.URLError: <urlopen error unknown url type: javascript>
8行目。それはどのように可能ですか? while-loop を使用すると、スキーム javascript を使用してこれらのリンクをすべてスキップすると思いましたか? 例外が機能しないのはなぜですか? 私のせいはどこですか?
MyHTMLParser
ウェブサイトで見つかったリンクをそのように gdaten に追加します[[stuff,stuff, link][stuff,stuff, link]