python - Pythonでpdfからヒンディー語で書かれたテキストを抽出する

Question

PDFドキュメントからヒンディー語で入力されたテキストを抽出したい .私が扱っているサンプルページの画像を添付しました.

pdfminer を使用してテキストを取得しようとしましたが、テキストが文字化けしています (ヒンディー語フォントが原因である可能性があります)。

今、ページを 3 つの部分に分割し、各部分を 2 つの部分 (英語とヒンディー語のテキストを分離) に分割し、それぞれの半分で ocr を実行してテキストを取得することを考えていますが、唯一の問題は、ヒンディー語に使用されるフォントがわからないことです。また文字化けするかもしれません。

私の質問は、ヒンディー語フォントを処理するためのより良い方法はありますか? フォント名を見つけるにはどうすればよいですか?

score 1 · Accepted Answer

あなたの PDF で次のことを試してみましたが、多くのテキストが抽出されているように見えます。最適なレイアウトではないかもしれないと推測していますが、わかりません。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    with open(path, 'rb') as fp:
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        password = ""
        caching = True
        pagenos = set()

        for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
            interpreter.process_page(page)

        text = retstr.getvalue()

    device.close()
    retstr.close()
    return text

print convert_pdf_to_txt("Electoral roll - Faizabad.pdf")

として表示されるutf-8ため、出力コンソールがこれを使用して表示できることを確認する必要があります。

例えば：

भभग ससखखभककल मतदभतभ 11 1.रजजरभ आसशशकपपथममक ववददपलद रजजरप - सपमपनद779 420 359 0 779ननरभरचक नभमभरलल 2014 0S24उततर पददशवरधभन सभभ कदत कक ससखखभ ,नभम र आरकण सससनत:ललक सभभ कदत कक ससखखभ ,नभम र आरकण सससनत: 1 . पकनरलकण कभ वरररणपकनरलकण कभ ररर : 2014अहतभर कक नतथस: 01.01.2014पकनरलकण कभ सररप: ससककपत पकनरलकणपकभशन कक नतथस: 01.10.2013पकनरमकदण कक नतथस : 15.03.2014

Adobe Reader使用されているフォントのリストを確認するには、PDF をまたはなどの PDF リーダーにロードし、[ファイル] メニューからFoxit Reader選択します。Propertiesここから、を選択できるはずですFonts。これを試してみるとFoxit Reader、次のフォントが表示されました。

Mangal-Bold
Arial
Mangal
Arial Bold
Times-New-Roman-Bold

python - Pythonでpdfからヒンディー語で書かれたテキストを抽出する

1 に答える 1

Related

Reference