私のプロジェクトでは、pdf を 2 列形式に変換する必要があります。基本的に、それらをテキスト ファイルに変換する必要があり、使用しましpdfminer
たが、順序が完全に混乱しています (ダブル カラム、つまり、IEEE 論文の場合)。2 列の単語 (docx) ファイルを docx を使用してテキストに変換しようとしましたが、少なくともテキスト (表や方程式ではなく) ではほぼ問題なく動作します。そのため、一部のオンライン ツール (viz、Nitro Cloud) で行われているように、完全な順序を維持しながら、最初に pdf を単語に変換できるかどうかを考えています。しかし、python プログラミング/python パッケージを使用してこの変換を行う必要があります。
誰か洞察を教えてください。pdfminer を使用したコード (最初に試したもの)。
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = file(path, 'rb')
process_pdf(rsrcmgr, device, fp)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str
p1="C:\\sample\\samp.pdf"
c1=convert_pdf_to_txt(p1)
(pdf サンプル: http://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf .)