1

私のプロジェクトでは、pdf を 2 列形式に変換する必要があります。基本的に、それらをテキスト ファイルに変換する必要があり、使用しましpdfminerたが、順序が完全に混乱しています (ダブル カラム、つまり、IEEE 論文の場合)。2 列の単語 (docx) ファイルを docx を使用してテキストに変換しようとしましたが、少なくともテキスト (表や方程式ではなく) ではほぼ問題なく動作します。そのため、一部のオンライン ツール (viz、Nitro Cloud) で行われているように、完全な順序を維持しながら、最初に pdf を単語に変換できるかどうかを考えています。しかし、python プログラミング/python パッケージを使用してこの変換を行う必要があります。

誰か洞察を教えてください。pdfminer を使用したコード (最初に試したもの)。

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO
from cStringIO import StringIO
def convert_pdf_to_txt(path):

   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

   fp = file(path, 'rb')
   process_pdf(rsrcmgr, device, fp)
   fp.close()
   device.close()

   str = retstr.getvalue()
   retstr.close()
   return str
p1="C:\\sample\\samp.pdf" 

c1=convert_pdf_to_txt(p1)

(pdf サンプル: http://www.iracst.org/ijacea/papers/vol2no62013/1vol2no6.pdf .)

4

0 に答える 0