私は、plone(v.4.1.4) サイトのスタンドアロン統合インストーラーを collective.documentviewer 2.2.1 で持っています。スキャンしたドキュメント、xls、オープン オフィス、rtf、pdf から単語を検索する限り、問題なく動作しています。画像コンテンツタイプとしてアップロードされた画像(テキストを含む)の場合、ドキュメント設定でOCRがチェックされていても、その画像はドキュメントビューアでサポートされていません。画像がファイルとしてアップロードされた場合、gif、png、jpg などの適切な画像形式を設定した後、画像の一部である単語を検索できません。Linux システムに次のコマンドで取得する必要な tesseract ファイルをインストールしました。
dpkg -l| grep tesseract
ii libtesseract3 3.02.01-6 i386 Command line OCR tool
ii tesseract-ocr 3.02.01-6 i386 Command line OCR tool
ii tesseract-ocr-eng 3.02-2 all tesseract-ocr language files for English
ii tesseract-ocr-equ 3.02-2 all tesseract-ocr language files for equations
ii tesseract-ocr-osd 3.02-2 all tesseract-ocr language files for script and orientation
サンプルの gif 画像を添付します。 たとえば、画像の一部である「Lab」という単語を検索したいとします。テキスト タブには、この pdf に埋め込まれた画像の単語は表示されません。ガイドしてください