java - PDFからのテキストの抽出: PDFLib vs PDF抽出 vs pdf2xml

Question

PDF からテキストを抽出するためのライブラリ (可能であれば Java または PHP で利用可能) を探しています。次のような多くのソフトウェアが利用可能です。

3-Heights™ PDF 抽出http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET – テキスト抽出ツールキットhttp://www.pdflib.com/products/tet/
PDF2XML http://sourceforge.net/projects/pdf2xml/

どのツールを選択しますか? それらについてどう思いますか？

ご親切にありがとうございました。

score 3 · Accepted Answer

私のお気に入りは iText (java) ですが、PDF 内のテキストは常に表示される順序で保存されているとは限らないため、PDF からテキストを抽出するのは困難な場合があります。

score -1 · Accepted Answer

ここで報告されているように、itext は irs i1040.pdf からテキストを適切に抽出できませんでした。

<1> article.gmane.org/gmane.comp.java.lib.itext.general/65680

私の知る限り、フォントが埋め込まれている場合、常に正しいテキストを抽出できるとは限りません。参照: <2> www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html <3> セクション 9.10.1 : www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

<3> 言います:

フォントがこれらの方法のいずれかで定義されていない場合 ... 追加情報なしでは文字を Unicode 値に変換できません。

テキスト抽出には「Unicode値への変換」が必須だと思います。

java - PDFからのテキストの抽出: PDFLib vs PDF抽出 vs pdf2xml

2 に答える 2

Related

Reference