Foxit SDKを使用して、PDF ドキュメントからテキストを抽出しています。
すべて問題ありませんが、英語ではなく他の言語で pdf を抽出すると、正しい出力が得られません。
Java で PDFBox も使用しましたが、最悪の出力が得られます。Foxit SDK からの出力は PDFBox よりも優れています。
問題を解決できる他のライブラリはありますか..? または、他の解決策があります。
個人的にそれを正しく行いたい場合は、その費用を支払う必要があります。ComponentOne には、WPF 用の PDFViewer があります。タグに欠落があるため、どのフレームワークを使用しているかわかりません。
Windows を使用している場合は、adobe が提供する IFilter を使用できます。私は、Adobe が提供する IFilter を Adobe Reader 8 で使用しました。これは、私が使用した正確な例へのリンクです。
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
パフォーマンスは問題ありませんでした (他の多くの方法は使用していないと思います)。400 ページの PDF の場合、約 15 秒かかります。
Quick PDF Library の試用版を試して、ドキュメントでのパフォーマンスを確認することをお勧めします。 http://www.quickpdflibrary.com
QP.GetPageText(7) または GetPageText(8) は、ほとんどの PDF ファイルに対してかなり良い結果を返します。
アンドリュー。
免責事項: 私は Quick PDF Library のコンサルティング業務を行っています。