PDFMiner を使用して PDF ファイルからテキストを抽出しようとしています。スクリプト pdf2txt.py を使用してサンプルの例を実行したかった
http://www.unixuser.org/~euske/python/pdfminer/index.html
この一行で
pdf2txt.py samples/simple1.pdf
IDLEを使用してWindowsで作業しているため、IDLE内で次のスクリプトを実行します
import pdf2txt
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])
それが私にくれたたびに
使用方法: C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P パスワード] [-o 出力] [-C] [-n] [-A ] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F box_flow] [-Y layout_mode] [-O output_dir] [-R rotation] [-t text|html|xml|tag ] [-c コーデック] [-s スケール] ファイル ...
引数が解析されなかったことを知らせるエラー メッセージであることはわかっています。pdf2txt.py の最初の数行は次のとおりです。
def main(argv):
import getopt
def usage():
print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
' [-t text|html|xml|tag] [-c codec] [-s scale]'
' file ...' % argv[0])
return 100
try:
(opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:
引数を作成するためにどのようにフォーマットできますか? ばかげた質問であることはわかっていますが、気が狂いそうになります。
私を助けてください!
ありがとう、
ジェイソン
アップデート
ルイスのアドバイスに従って、コマンドを次のように変更しました
pdf2txt.main(['simple1.html','mypdf.pdf'])
シェル ウィンドウで出力を生成できるようになりましたが、出力ファイル「simple1.html」が見つかりません。次のコマンドを試しました。
pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])
それらのどれも機能せず、指定したフォルダーにファイルを生成しませんでした。