0

ヘイ、みんな。多分あなたたちは私のプロジェクトで私を助けることができます. 仮想プリンターとしてpdfcreatorを使用して、いくつかの画像をファイルに印刷しています。任意のタイプの画像にすることができます。しかし、そこからデータを抽出する必要があります。それはできますか?私はC#を使用しています。

4

1 に答える 1

0

画像からテキストを抽出することはできません。

原則として、PDF からテキストを抽出できます。

フリー ソフトウェアのコマンドライン ユーティリティを使用する 2 つの方法を次に示します。おそらくそれらの1つがあなたのニーズに合っています:

  1. pdftotext.exe( Foolabs の XPDF ユーティリティの一部)
  2. gswin32c.exe(Artifex のGhostscript )

3 ~ 7 ページからすべてのテキストを抽出するコマンドラインの例:

pdftotext:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

テキスト出力をファイルではなく stdout に取得したいですか? OK、これを試してください:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript: (インストールがlibps2ascii.psサブディレクトリにあることを確認してください)

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET 

テキスト出力は stdout に表示されます。これを cmd.exe ウィンドウでテストする場合は> /path/to/output.txt、コマンドに追加することで、これをファイルにリダイレクトできます。

于 2010-09-09T23:08:55.677 に答える