0

Foxit SDKを使用して、PDF ドキュメントからテキストを抽出しています。

すべて問題ありませんが、英語ではなく他の言語で pdf を抽出すると、正しい出力が得られません。

Java で PDFBox も使用しましたが、最悪の出力が得られます。Foxit SDK からの出力は PDFBox よりも優れています。

問題を解決できる他のライブラリはありますか..? または、他の解決策があります。

4

3 に答える 3

0

個人的にそれを正しく行いたい場合は、その費用を支払う必要があります。ComponentOne には、WPF 用の PDFViewer があります。タグに欠落があるため、どのフレームワークを使用しているかわかりません。

ComponentOne PDF Viewer for WPF

于 2012-01-27T06:05:51.480 に答える
0

Windows を使用している場合は、adobe が提供する IFilter を使用できます。私は、Adobe が提供する IFilter を Adob​​e Reader 8 で使用しました。これは、私が使用した正確な例へのリンクです。

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

パフォーマンスは問題ありませんでした (他の多くの方法は使用していないと思います)。400 ページの PDF の場合、約 15 秒かかります。

于 2013-04-16T12:49:59.873 に答える
0

Quick PDF Library の試用版を試して、ドキュメントでのパフォーマンスを確認することをお勧めします。 http://www.quickpdflibrary.com

QP.GetPageText(7) または GetPageText(8) は、ほとんどの PDF ファイルに対してかなり良い結果を返します。

アンドリュー。

免責事項: 私は Quick PDF Library のコンサルティング業務を行っています。

于 2012-01-27T11:43:21.197 に答える