3

PDF からテキストを抽出するためのライブラリ (可能であれば Java または PHP で利用可能) を探しています。次のような多くのソフトウェアが利用可能です。

どのツールを選択しますか? それらについてどう思いますか?

ご親切にありがとうございました。

4

2 に答える 2

3

私のお気に入りは iText (java) ですが、PDF 内のテキストは常に表示される順序で保存されているとは限らないため、PDF からテキストを抽出するのは困難な場合があります。

于 2010-09-23T11:12:49.683 に答える
-1

ここで報告されているように、itext は irs i1040.pdf からテキストを適切に抽出できませんでした。

<1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

私の知る限り、フォントが埋め込まれている場合、常に正しいテキストを抽出できるとは限りません。参照: <2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <3> セクション 9.10.1 : www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3> 言います:

フォントがこれらの方法のいずれかで定義されていない場合 ... 追加情報なしでは文字を Unicode 値に変換できません。

テキスト抽出には「Unicode値への変換」が必須だと思います。

于 2013-11-03T03:26:11.713 に答える