c# - 最速の PDF->.NET プロジェクト用テキストライブラリ

Question

基本的に私の PDF コレクションのカタログとなるアプリケーションを作成しようとしています。数万の PDF を含む 15 ～ 20 GB について話しています。また、全文検索メカニズムを組み込む予定です。検索には Lucene.NET (実際には NHibernate.Search) を使用し、PDF からテキストへの変換にはライブラリを使用します。どれが最良の選択でしょうか? 私はこれらを検討していました：

PDFボックス
c# ラッパー経由の pdftotext (xpdf から)
iTextSharp

編集:他の良いオプションは、iFilters を使用しているようです。これらのライブラリと比較して、それら (Foxit/Adobe) のパフォーマンス (速度/品質) はどれくらいですか?

商用ライブラリはおそらく問題外です。これは私の個人的なプロジェクトであり、商用ソリューションの予算は実際にはありませんが、PDFTextStream は非常に見栄えがします。

私が読んだことから、 pdftotextはPDFBoxよりもはるかに高速です。pdftotext と比較して、iTextSharp はどれくらいうまく機能しますか? または、誰かが他の優れたソリューションを推奨できますか?

score 3 · Accepted Answer

プライベートプロジェクトの場合、進行中の変換プロセスに移行しますか? たとえば、15 ～ 20Gb を変換した後、まだ変換を続けますか?

私が尋ねる理由は、速度があなたの主な問題であるかどうかを調べようとしているからです. たとえば、本のライブラリを変換するのが私である場合、私の主な関心事は変換の速度ではなく、変換の品質です。必要に応じて、一晩/週末に変換をいつでも残すことができます!

score 1 · Accepted Answer

Foxit の PDF IFilter のデスクトップ版は無料です

http://www.foxitsoftware.com/pdf/ifilter/

インデックス作成と検索は自動的に行われますが、それらのインデックスも使用できる可能性があります。販売または配布するアプリケーションで使用することを計画している場合、それは良い選択ではないと思いますが、それが自分のためだけであれば、うまくいくかもしれません.

Foxit コードは私の会社のPDF Reader/Text Extraction libraryのコアにあり、これはあなたのプロジェクトには適していませんが、基礎となる Foxit エンジンの結果の速度と品質は保証できます。

score 0 · Accepted Answer

どのライブラリを使用しても問題ないと思いますが、検索時にこれらの 20Gb ファイルをすべて検索しますか?

全文検索の場合、SQLite やクライアントマシン上の任意のローカルデータベースなどのデータベースを作成し、すべての pdf を読み取ってプレーンテキストに変換し、最初に追加するときにデータベースに保存することが最善です。

データベースは次のように簡単にできます..

Table: PDFFiles
PDFFileID
PDFFilePath
PDFTitle
PDFAuthor
PDFKeywords
PDFFullText....

必要に応じてこのテーブルを検索できます。この方法では、pdf の種類に関係なく検索が非常に高速になります。さらに、pdf からデータベースへのこの変換は、pdf がコレクションに追加されるか変更された場合にのみ必要です。

c# - 最速の PDF->.NET プロジェクト用テキスト ライブラリ

3 に答える 3

Related

Reference

c# - 最速の PDF->.NET プロジェクト用テキストライブラリ