特定のドキュメントを検索し、後で分類するためにそれらをダウンロードするBingAPIを使用してPython2.6でWebクローラーを作成しました。文字列メソッドを使用して、URLが.pdf、.psなどで終わる結果をダウンロードしてきましたがurllib.urlretrieve()
、ドキュメントが次のようなURLの背後に「隠されている」と問題が発生します。
http://www.oecd.org/officialdocuments/displaydocument/?cote=STD/CSTAT/WPNA(2008)25&docLanguage=En
それで、2つの質問。URLにリンク先のpdf/docなどのファイルが明示的に含まれていない場合(例:www.domain.com/file.pdf)にあるかどうかを確認する方法はありますか?Pythonにそのファイルを引っ掛けさせる方法はありますか?
編集:返信ありがとうございます。そのうちのいくつかは、ファイルをダウンロードして正しいタイプかどうかを確認することを提案しています。唯一の問題は...それを行う方法がわかりません(上記の質問2を参照)。urlretrieve(<above url>)
同じURLを含むhrefを持つhtmlファイルのみを提供します。