PDFをテキストに変換するために、次のコマンドを使用しています:
pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt
しかし、最初にテキストファイルに変換してから分析を行う必要がある1000を超えるpdfファイルがあります。
このコマンドを使用して pdf ファイルを反復処理し、それらすべてを変換する方法はありますか?
PDFをテキストに変換するために、次のコマンドを使用しています:
pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt
しかし、最初にテキストファイルに変換してから分析を行う必要がある1000を超えるpdfファイルがあります。
このコマンドを使用して pdf ファイルを反復処理し、それらすべてを変換する方法はありますか?
私のwin1o OSでpythonコードが間違っていました(OSError:[WinError 193] %1は有効なWin32アプリケーションではありません)。forループは次のようになります。
for pdf_file in glob.glob('*.pdf'):
call(['python.exe','pdf2txt.py','-o',pdf_file[:-3]+'txt',pdf_file])
注意してください、ファイル i/o のパラメーターは反対です。同じ順序のままだと、ファイルは空のファイルで上書きされます...
Gurupad Hegde に感謝します。ファイルを隠す方法を教えてください。とても役に立ちます。