c# - pdfcreator を使用して、pdf などの画像のデータを処理する

Question

ヘイ、みんな。多分あなたたちは私のプロジェクトで私を助けることができます. 仮想プリンターとしてpdfcreatorを使用して、いくつかの画像をファイルに印刷しています。任意のタイプの画像にすることができます。しかし、そこからデータを抽出する必要があります。それはできますか？私はC＃を使用しています。

score 0 · Accepted Answer

画像からテキストを抽出することはできません。

原則として、PDF からテキストを抽出できます。

フリーソフトウェアのコマンドラインユーティリティを使用する 2 つの方法を次に示します。おそらくそれらの1つがあなたのニーズに合っています：

pdftotext.exe( Foolabs の XPDF ユーティリティの一部)
gswin32c.exe(Artifex のGhostscript )

3 ～ 7 ページからすべてのテキストを抽出するコマンドラインの例:

pdftotext:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

テキスト出力をファイルではなく stdout に取得したいですか? OK、これを試してください：

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript: (インストールがlibps2ascii.psサブディレクトリにあることを確認してください)

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET

テキスト出力は stdout に表示されます。これを cmd.exe ウィンドウでテストする場合は> /path/to/output.txt、コマンドに追加することで、これをファイルにリダイレクトできます。

c# - pdfcreator を使用して、pdf などの画像のデータを処理する

1 に答える 1

Related

Reference