pdf - PDFからすべてを抽出

Question

PDF ファイルからコンテンツを抽出するソリューションを探しています (コンソールツールまたはライブラリを使用)。

アップロードされた PDF ファイルからオンライン電子ブックを生成するためにサーバー上で使用されます。

次のものを抽出する必要があります。

Adobe PDF Library (ただし 5000 ドル)、BCL SDK (?)、PDFLib (795 ユーロ)、QuickPDF (250 ドル) を見てください。

現在、オープンソースの pdf2xml (テキスト、画像、リンクを抽出) と GhostScript (スナップショットとサムネイル) を使用しています。他に残っているものは次のとおりです。

私たちは多額のお金を払うか (そして間違ったソリューションを選択して間違いを犯す可能性があります)、無料またはオープンソースのソリューションを使用するかをためらっています。

PDF からほぼすべてを抽出するための最適なソリューションはどれですか?

どんなコメントでも大歓迎です。

score 5 · Accepted Answer

数日または数週間の労力で、オープンソースツールをニーズに適応させることができます。フォントとすべてを確実に抽出できます。これは、すべての PDF リーダーがそれらを表示するために何らかの方法で実行する必要があることです。

おそらく、プログラマーのコスト ($/hr) を見積もり、必要なオープンソース機能を追加するのにかかる推定時間 (60 ～ 80 時間?) を掛ける必要があります。とにかくこれが $5000 を超えるかそれに近い場合は、商用ソフトウェアを購入することを検討してください。

それ以外の場合は、(非常に優れた) PDF リファレンスの助けを借りて、順調に進んでいるはずです。

もう1つ、ポップラーが役立つかもしれません。PDFをレンダリングするためのものですが、それはあなたがやろうとしていることと非常に関連しています.

score 1 · Accepted Answer

A: フォント: フォントを抽出できるとは思いません。

B: マルチメディアについてよくわからない

C: ホットスポットとは何ですか?

D: iTextSharp (オープンソース) を見てください。より多くのページ情報を抽出できる可能性があります。

score 1 · Accepted Answer

また、PDF からコンテンツを抽出し、PDF を画像としてレンダリングし、html に変換するように特別に設計された 3 つの SDK を含むPDF Suiteもあります。フォントファイルの抽出はありませんが、元のレイアウトを維持したまま XML 出力とテキスト抽出をサポートします。

免責事項: 私は ByteScout で働いています

score 0 · Accepted Answer

tika http://tika.apache.org/その利点は、複数の型からテキストを抽出できることです。しかし、それはあなたの問題も解決できます。

実装について: Tika の目標は、PDFBox や Apache POI などの既存のパーサーライブラリを可能な限り再利用することです。そのため、Tika のパーサークラスのほとんどは、そのような外部ライブラリへのアダプターです。

あなたが説明したように、tikaはうまくいくと思います。カテゴリで物事を抽出します。(後でコードを追加します。)

まだ正確な答えではありません。

score 0 · Accepted Answer

はい、テキスト、テキストスタイル情報、画像、リンク注釈、ブックマークを抽出できます。表以外の段落 ID 情報を取得することもできます。このリンクを確認してください。

それは本当にうまくいきます。

5 に答える 5