基本的に私の PDF コレクションのカタログとなるアプリケーションを作成しようとしています。数万の PDF を含む 15 ~ 20 GB について話しています。また、全文検索メカニズムを組み込む予定です。検索には Lucene.NET (実際には NHibernate.Search) を使用し、PDF からテキストへの変換にはライブラリを使用します。どれが最良の選択でしょうか? 私はこれらを検討していました:
- PDFボックス
- c# ラッパー経由の pdftotext (xpdf から)
- iTextSharp
編集:他の良いオプションは、iFilters を使用しているようです。これらのライブラリと比較して、それら (Foxit/Adobe) のパフォーマンス (速度/品質) はどれくらいですか?
商用ライブラリはおそらく問題外です。これは私の個人的なプロジェクトであり、商用ソリューションの予算は実際にはありませんが、PDFTextStream は非常に見栄えがします。
私が読んだことから、 pdftotextはPDFBoxよりもはるかに高速です。pdftotext と比較して、iTextSharp はどれくらいうまく機能しますか? または、誰かが他の優れたソリューションを推奨できますか?