3

更新:代わりにhttps://softwarerecs.stackexchange.com/questions/71464/java-library-to-insert-invisible-text-into-a-pdfを参照してください。

検索可能にするために、既存の PDF ファイルに非表示のテキストを挿入したいと考えています。

どのライブラリを使用すればよいですか? 使用する特定のAPI メソッド
へ のリンクをいただければ幸いです。

無料、理想的にはオープンソース。
どうもありがとう!

(興味深いことに: Alfresco リポジトリで、受信したスキャンされた書類を自動的に OCR して検索可能にしたい)

4

3 に答える 3

4

3つのオプション。私の答えはitext固有ですが、基礎となるメソッドを十分に高度なPDFライブラリに変換できるはずです。

  1. テキストレンダリングモード3:「ストロークなし、塗りつぶしなし」。iTextの場合:myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
  2. 何かの後ろにテキストを描きます。おそらくスキャンしたページ画像を使用しています。iTextmyPdfStamper.getUnderContent(pageNum)を使用すると、これが簡単になり、スキャンの下でテキストを描画できるようになります。ページのコンテンツにアクセスできる他のライブラリでは、既存のコンテンツストリームの先頭に「生の」テキストを追加する必要がある場合があります。詳細については、「PDF仕様」(グーグル、大丈夫です)を確認してください。第9章は、すべてテキストレンダリングに関するものです。
  3. ページのメディアまたはクロップボックスの外側にテキストを描画します。ランダムなPDFに精通した検索エンジンでページを表示したいだけならこれでうまくいきますが、PDFを見ている人に適切なテキスト選択ボックスを見せたい場合は...それほど多くはありません。
于 2011-03-03T18:28:37.090 に答える
1

これは、テキストを含む PDF ドキュメントを作成する方法を示し、これは画像を追加する方法を示しています。最初にテキストを追加してから、その上に画像を追加します。テキストはエンド ユーザーには「見えなくなり」ますが、検索エンジンによる検索は可能のままです。 これも役に立つかもしれません。

于 2011-03-01T19:39:35.087 に答える
0

テキストを非表示にする必要はありません。それらを適切な場所にレンダリングしますが、スキャンした画像をテキストにオーバーレイします。または、画像上にテキストをレンダリングして、ストロークとブラシの色のアルファ値をゼロに設定することもできます。

于 2011-02-28T05:13:26.307 に答える