2

各ページがフォームの情報の 3x3 ブロックに分割されている pdf ファイルを読み込もうとしています

A | B | C
D | E | F
G | H | I

各エントリは複数の行に分かれています。1 つのエントリの単純化された例は、このカードです。しかし、他の 8 つのスロットには同様のカードが存在します。A、B、C の順に読めるようになりたいです。ただし、A、B、および C の 1 行目を読んでから、A、B、および C の 2 行目を読んだら、生き残ることができます。私が探しているものに合うもの。ここでの答えはかなりうまく機能しますが、
列の順序は日常的に歪んでいます。

4

2 に答える 2

0

完璧な解決策を思いつくことはできませんでしたが、必要なものには次のものが最適です。

import PyPDF2
from StringIO import StringIO
def getPDFContent(path, pages=[]):
    content = ""
    p = file(path, "rb")
    pdf = PyPDF2.PdfFileReader(p)
    if pages:
        for i in pages:
            content += pdf.getPage(i).extractText() + "\n"
    else:
        numPages = pdf.getNumPages()
        for i in range(numPages):
            content += pdf.getPage(i).extractText() + "\n"
    content = " ".join(content.replace(u"\xa0", " ").strip().split())
    return content
于 2015-04-21T17:36:49.903 に答える