ヘイ、みんな。多分あなたたちは私のプロジェクトで私を助けることができます. 仮想プリンターとしてpdfcreatorを使用して、いくつかの画像をファイルに印刷しています。任意のタイプの画像にすることができます。しかし、そこからデータを抽出する必要があります。それはできますか?私はC#を使用しています。
1 に答える
0
画像からテキストを抽出することはできません。
原則として、PDF からテキストを抽出できます。
フリー ソフトウェアのコマンドライン ユーティリティを使用する 2 つの方法を次に示します。おそらくそれらの1つがあなたのニーズに合っています:
pdftotext.exe
( Foolabs の XPDF ユーティリティの一部)gswin32c.exe
(Artifex のGhostscript )
3 ~ 7 ページからすべてのテキストを抽出するコマンドラインの例:
pdftotext:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
"d:\path\to\output.txt"
テキスト出力をファイルではなく stdout に取得したいですか? OK、これを試してください:
pdftotext.exe ^
-f 3 ^
-l 7 ^
-epl dos ^
-layout ^
"d:\path with spaces\to\input.pdf" ^
-
Ghostscript:
(インストールがlibps2ascii.ps
サブディレクトリにあることを確認してください)
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=3 ^
-dLastPage=7 ^
"c:/path/to/input.pdf" ^
-dQUIET
テキスト出力は stdout に表示されます。これを cmd.exe ウィンドウでテストする場合は> /path/to/output.txt
、コマンドに追加することで、これをファイルにリダイレクトできます。
于 2010-09-09T23:08:55.677 に答える