0

PDFからテキストを抽出したいPDFスキャンに取り組んでいます。検索にpdf Multithreading.pdfを使用しています。テキストを抽出することはできますが、テキストからスペースを抽出することはできません。Tj オペレーターではなく、Tj オペレーターのコールバックのみを取得しています。何が問題になる可能性がありますか?

ありがとう

4

1 に答える 1

3

テキストを抽出することはできますが、テキストからスペースを抽出することはできません。Tj オペレーターではなく、Tj オペレーターのコールバックのみを取得しています。

その理由は、サンプルドキュメントで

  1. テキスト描画操作ではスペースは使用されませんが、代わりにTm操作を使用してテキスト描画位置が変更されます。と
  2. Tjテキスト描画操作のみが使用され、 TJ操作は使用されません。

たとえば、タイトルページのテキスト描画操作

タイトルページのタイトル

それは:

BT
/F0 50 Tf
1 0 0 1 60 669.225 Tm
(\0006)Tj                                    %  T
1 0 0 1 83.527 669.225 Tm
(\000J\000T)Tj                               %  hr
1 0 0 1 125.631 669.225 Tm
(\000G\000C\000F\000K\000P\000I)Tj           %  eading
1 0 0 1 273.395 669.225 Tm
(\0002)Tj                                    %  P
1 0 0 1 298.272 669.225 Tm
(\000T)Tj                                    %  r
1 0 0 1 313.599 669.225 Tm
(\000Q)Tj                                    %  o
1 0 0 1 340.076 669.225 Tm
(\000I\000T)Tj                               %  gr
1 0 0 1 382.43 669.225 Tm
(\000C\000O\000O\000K\000P\000I)Tj           %  amming
0 Tc
1 0 0 1 60 609.225 Tm
(\000\))Tj                                   %  G
1 0 0 1 91.7 609.225 Tm
(\000W\000K\000F\000G)Tj                     %  uide
ET  

Tjテキスト描画操作に空白はなく、 Tmを使用して描画位置をシフトするだけです。

于 2014-11-20T14:18:12.630 に答える