c# - Foxit SDK を使用してテキスト形式の pdf を抽出する

Question

Foxit SDKを使用して、PDF ドキュメントからテキストを抽出しています。

すべて問題ありませんが、英語ではなく他の言語で pdf を抽出すると、正しい出力が得られません。

Java で PDFBox も使用しましたが、最悪の出力が得られます。Foxit SDK からの出力は PDFBox よりも優れています。

問題を解決できる他のライブラリはありますか..? または、他の解決策があります。

score 0 · Accepted Answer

個人的にそれを正しく行いたい場合は、その費用を支払う必要があります。ComponentOne には、WPF 用の PDFViewer があります。タグに欠落があるため、どのフレームワークを使用しているかわかりません。

score 0 · Accepted Answer

Windows を使用している場合は、adobe が提供する IFilter を使用できます。私は、Adobe が提供する IFilter を Adobe Reader 8 で使用しました。これは、私が使用した正確な例へのリンクです。

パフォーマンスは問題ありませんでした (他の多くの方法は使用していないと思います)。400 ページの PDF の場合、約 15 秒かかります。

score 0 · Accepted Answer

Quick PDF Library の試用版を試して、ドキュメントでのパフォーマンスを確認することをお勧めします。 http://www.quickpdflibrary.com

QP.GetPageText(7) または GetPageText(8) は、ほとんどの PDF ファイルに対してかなり良い結果を返します。

アンドリュー。

免責事項: 私は Quick PDF Library のコンサルティング業務を行っています。

3 に答える 3