pypdf2 を使用して pdf ファイルを解析しているときに、改行で mm-dd-yy のようなハイフン化された単語を次のように読み取ります。
んん
-
dd
-
yy
これは私のコードです:
import PyPDF2
def getPDFContent(path):
pdf = PyPDF2.PdfFileReader(file(path, "rb"))
content = ""
content += pdf.getPage(0).extractText() + "\n"
return content
これを克服して同じ行に印刷するにはどうすればよいですか?