pdf - iTextSharp を使用して PDF から点字テキスト (画像) を抽出する

Question

点字は視覚障害者のための特別なフォントです。PDFファイルで点字フォントで書かれたテキストをデコードし、通常のテキストを出力しようとしています。ただし、PDFTextExtractor (iTextSharp 内) はこのフォントを処理できません。他の方法で可能ですか？

PDFファイルからデコードする方法を見つけようとしています。

使ってみた、

PdfReader pdf = new PdfReader("C:\\pdfs\\file.pdf");
string text = PdfTextExtractor.GetTextFromPage(pdf, 1);

this.brailleTextBox.Text = text.ToString();
this.normalTextBox.Text = text.ToString();

通常のフォント (Arial など) と点字フォントのテキストを含む pdf ファイルでは、点字テキストは返されず、代わりにページ上の通常のテキストのみが返されます。

iTextSharp を使用して、代わりに点字フォントのテキストを取得するにはどうすればよいですか。

score 0 · Accepted Answer

(まだ答えは出ていません)

わかりました、多分私は正しく理解していません。提供していただいた PDF を使用してみPdfTextExtractorましたが、正しく動作しました。具体的には、次のテキストがページ 1 から除外されました。

B   r    a   i     l    l    e   C   o   d    e   s 
B r a i l l e C o d e s 

Embossed dot positions as,   


A  B   C   D   E   F   G  H   I    J   K  
A B C D E F G H I J K 
L    M  N  O   P  Q   R  S   T   U   V  
L M N O P Q R S T U V 
W  X   Y   Z 
W X Y Z 


1   2   3    4   5   6    7   8   9   0 
1 2 3 4 5 6 7 8 9 0

誤解していたら申し訳ありませんが、テキストを点字に戻そうとしているのですか?

pdf - iTextSharp を使用して PDF から点字テキスト (画像) を抽出する

1 に答える 1

Related

Reference