pdf - 目に見えないテキストを PDF に挿入する方法は?

Question

検索可能にするために、既存の PDF ファイルに非表示のテキストを挿入したいと考えています。

どのライブラリを使用すればよいですか? 使用する特定のAPI メソッド
へのリンクをいただければ幸いです。

無料、理想的にはオープンソース。
どうもありがとう！

(興味深いことに: Alfresco リポジトリで、受信したスキャンされた書類を自動的に OCR して検索可能にしたい)

score 4 · Accepted Answer

3つのオプション。私の答えはitext固有ですが、基礎となるメソッドを十分に高度なPDFライブラリに変換できるはずです。

テキストレンダリングモード3：「ストロークなし、塗りつぶしなし」。iTextの場合：myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
何かの後ろにテキストを描きます。おそらくスキャンしたページ画像を使用しています。iTextmyPdfStamper.getUnderContent(pageNum)を使用すると、これが簡単になり、スキャンの下でテキストを描画できるようになります。ページのコンテンツにアクセスできる他のライブラリでは、既存のコンテンツストリームの先頭に「生の」テキストを追加する必要がある場合があります。詳細については、「PDF仕様」（グーグル、大丈夫です）を確認してください。第9章は、すべてテキストレンダリングに関するものです。
ページのメディアまたはクロップボックスの外側にテキストを描画します。ランダムなPDFに精通した検索エンジンでページを表示したいだけならこれでうまくいきますが、PDFを見ている人に適切なテキスト選択ボックスを見せたい場合は...それほど多くはありません。

score 1 · Accepted Answer

これは、テキストを含む PDF ドキュメントを作成する方法を示し、これは画像を追加する方法を示しています。最初にテキストを追加してから、その上に画像を追加します。テキストはエンドユーザーには「見えなくなり」ますが、検索エンジンによる検索は可能のままです。これも役に立つかもしれません。

score 0 · Accepted Answer

テキストを非表示にする必要はありません。それらを適切な場所にレンダリングしますが、スキャンした画像をテキストにオーバーレイします。または、画像上にテキストをレンダリングして、ストロークとブラシの色のアルファ値をゼロに設定することもできます。

3 に答える 3