4

PDFからテキストを抽出しようとしています。PDF には、ヒンディー語 (Unicode) のテキストが含まれています。私が使用している抽出ユーティリティは Apache PDFBox ( http://pdfbox.apache.org/ ) です。エクストラクタはテキストを抽出しますが、テキストを認識できません。多くのエンコーディングとフォントを変更しようとしましたが、予期したテキストはまだ認識されません。以下に例を示します: PDF のテキストは次の
ようになります: पवार 抽出後の外観: ̄Ö3⁄4ÖÖ ̧ü

何か提案はありますか?

4

1 に答える 1

3

PDF は本質的に印刷形式であるため、テキストを実際のテキストとしてではなく、一連の視覚的なグリフとして記録します。もともと、デジタル アーカイブ形式を意図したものではなく、今でも多くのドキュメントで使用されています。アラビア語やインド語など、グリフの置換、結紮、並べ替えが必要な複雑なスクリプトでは、基本的に混乱することがよくあります。通常そこにあるのは、埋め込まれたフォントで使用されるグリフ ID であり、Unicode や実際のテキスト エンコーディングとは似ていません (フォントはグリフを表し、その一部は Unicode コード ポイントにマップされている可能性がありますが、一部は必要なだけです)。コンテキストまたは合字に基づくグリフバリアントなど、フォント内部で使用する場合)。LaTeX で生成された PDF、特に非 ASCII 文字と数学で同じことがわかります。

PDF には、テキストを視覚的表現の横にテキストとして埋め込む機能もありますが、それはもっぱら生成アプリケーションの裁量によるものです。Word は PDF を生成するときにその情報を保持しようと懸命に努力していると聞いたことがありますが、多くの PDF ジェネレーターはそうではありません (通常、ラテン語ではある程度機能します。そのため、気にする人はほとんどいないでしょう)。

PDFにプレーンテキストが利用できない場合の最善の策は、PDFを画像としてOCRすることだと思います。

于 2011-09-20T11:37:36.227 に答える