python - URLからメタ記述を抽出するときにpythonが空の配列を返すのはなぜですか?

質問する 2016-06-25T16:46:51.427

92 次

goose を使用してメタディスクリプションを抽出しようとしています。次のコードを書きました。クッキーの取り扱いも考えました。URLを1つだけ使用してテストすると、機能します。ただし、URL の配列を反復処理すると、次のコードを使用してメタディスクリプションを抽出すると、空の配列が生成されます。

os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling")
data = pandas.read_csv('activity_url.csv', delimiter=';')
x="https"
url_data=np.array(data[(data.iloc[:,2]==1) & (data.iloc[:,1].str.contains(x))])[:,1]

#remove '~oref='

clean_url_data=[urlparse.urlparse(i)[2].split("=")[1] for i in url_data]

g=goose.Goose()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) #for websites with cookie handling

website_meta_description=[g.extract(raw_html=(opener.open(urlw)).read()).meta_description for urlw in clean_url_data] 


print website_meta_description

python - URLからメタ記述を抽出するときにpythonが空の配列を返すのはなぜですか?

0 に答える 0

Related

Reference