0

PDFMiner を使用して PDF ファイルからテキストを抽出しようとしています。スクリプト pdf2txt.py を使用してサンプルの例を実行したかった

http://www.unixuser.org/~euske/python/pdfminer/index.html

この一行で

pdf2txt.py samples/simple1.pdf

IDLEを使用してWindowsで作業しているため、IDLE内で次のスクリプトを実行します

import pdf2txt

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.pdf'])

それが私にくれたたびに

使用方法: C:\Usersernor\Desktop\Dictionary Construction\simple1.pdf [-d] [-p pagenos] [-m maxpages] [-P パスワード] [-o 出力] [-C] [-n] [-A ] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F box_flow] [-Y layout_mode] [-O output_dir] [-R rotation] [-t text|html|xml|tag ] [-c コーデック] [-s スケール] ファイル ...

引数が解析されなかったことを知らせるエラー メッセージであることはわかっています。pdf2txt.py の最初の数行は次のとおりです。

def main(argv):
    import getopt
def usage():
    print ('usage: %s [-d] [-p pagenos] [-m maxpages] [-P password] [-o output]'
           ' [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin]'
           ' [-F boxes_flow] [-Y layout_mode] [-O output_dir] [-R rotation]'
           ' [-t text|html|xml|tag] [-c codec] [-s scale]'
           ' file ...' % argv[0])
    return 100
try:
    (opts, args) = getopt.getopt(argv[1:], 'dp:m:P:o:CnAVM:L:W:F:Y:O:R:t:c:s:')
except getopt.GetoptError:

引数を作成するためにどのようにフォーマットできますか? ばかげた質問であることはわかっていますが、気が狂いそうになります。

私を助けてください!

ありがとう、

ジェイソン

アップデート

ルイスのアドバイスに従って、コマンドを次のように変更しました

pdf2txt.main(['simple1.html','mypdf.pdf'])

シェル ウィンドウで出力を生成できるようになりましたが、出力ファイル「simple1.html」が見つかりません。次のコマンドを試しました。

pdf2txt.main(['-o C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

pdf2txt.main(['C:\Users\Desktop\Dictionary Construction\simple1.html','mypdf.pdf'])

それらのどれも機能せず、指定したフォルダーにファイルを生成しませんでした。

4

1 に答える 1

1

次のように呼び出す必要があります。

pdf2txt.py samples/simple1.txt samples/simple1.pdf

必要に応じて、samples/simple1.txt を出力したいとします。

于 2015-10-24T03:32:21.973 に答える