表形式のデータを含む PDF ファイルがあります。
http://dl.dropbox.com/u/44235928/sample_rotate-0.pdf
そこから表形式のデータを抽出する必要があります。私は次のことを試みましたが成功しませんでした:
- テキストを選択し、メモ帳/Excel シートに貼り付けます。(ジャンクキャラ出てる)
- Acrobat Reader からテキストとして保存を使用しました。また、実際のテキストではなく、ジャンク文字を提供しています。
- PDFからテキストを抽出するためにApachePDFBoxコマンドラインユーティリティを試しました。また、実際のテキストの代わりにジャンク文字を提供しています。
- 最後に、OCR ソリューションを試しています。ImageMagick を使用して pdf ファイルを .tif 画像に変換し、それらの画像を tesseract OCR で処理しています。
ただし、OCR ソリューションはあまり正確ではありません (約 80% の単語が一致しました)。
PDFから作成された画像の密度とジオメトリを変更して、tesseract OCRからより良い結果を得ようとしました。
convert -rotate 90 -geometry 10000 -depth 8 -density 800 sample.pdf img_800_10000.tif;
tesseract img_800_10000.tif img_800_10000.tif nobatch letters;
OCRに最適な画像(密度、ジオメトリ、単色、シャープな境界など)の種類がわかりません。
tesseract の精度が向上するように、PDF ファイルから画像を生成するための最良のパラメータ (密度、ジオメトリ、深さなど) を提案してください。
私は他の( ocr 以外の)ソリューションにもオープンです。