Web サイトからいくつかの pdf を取得しようとするために、Python で urllib の urlretrieve() 関数を使用しています。(少なくとも私にとっては) 動作を停止し、破損したデータ (164 KB ではなく 15 KB) をダウンロードしています。
これをいくつかのpdfでテストしましたが、すべて成功しませんでした(つまり、random.pdf)。私はそれを機能させることができないようです。私が取り組んでいるプロジェクトのpdfをダウンロードできるようにする必要があります。
これは、pdfをダウンロードするために使用しているコードの種類の例です(およびpdftotext.exeを使用してテキストを解析します):
def get_html(url): # gets html of page from Internet
import os
import urllib2
import urllib
from subprocess import call
f_name = url.split('/')[-2] # get file name (url must end with '/')
try:
if f_name.split('.')[-1] == 'pdf': # file type
urllib.urlretrieve(url, os.getcwd() + '\\' + f_name)
call([os.getcwd() + '\\pdftotext.exe', os.getcwd() + '\\' + f_name]) # use xpdf to output .txt file
return open(os.getcwd() + '\\' + f_name.split('.')[0] + '.txt').read()
else:
return urllib2.urlopen(url).read()
except:
print 'bad link: ' + url
return ""
私は初心者のプログラマーなので、どんな入力でも素晴らしいでしょう! ありがとう