8

PDF ファイルからコンテンツを抽出するソリューションを探しています (コンソール ツールまたはライブラリを使用)。

アップロードされた PDF ファイルからオンライン電子ブックを生成するためにサーバー上で使用されます。

次のものを抽出する必要があります。

  1. フォントとスタイルを含むテキスト;
  2. 画像;
  3. オーディオとビデオ;
  4. リンクとホットスポット。
  5. ページのスナップショットとサムネイル。
  6. 一般的な PDF 情報 (ブック レイアウト、ページ数など)。

Adobe PDF Library (ただし 5000 ドル)、BCL SDK (?)、PDFLib (795 ユーロ)、QuickPDF (250 ドル) を見てください。

現在、オープン ソースの pdf2xml (テキスト、画像、リンクを抽出) と GhostScript (スナップショットとサムネイル) を使用しています。他に残っているものは次のとおりです。

  1. フォント;
  2. マルチメディア;
  3. ホットスポット;
  4. ページ情報。

私たちは多額のお金を払うか (そして間違ったソリューションを選択して間違いを犯す可能性があります)、無料またはオープンソースのソリューションを使用するかをためらっています。

PDF からほぼすべてを抽出するための最適なソリューションはどれですか?

どんなコメントでも大歓迎です。

4

5 に答える 5

5

数日または数週間の労力で、オープンソース ツールをニーズに適応させることができます。フォントとすべてを確実に抽出できます。これは、すべての PDF リーダーがそれらを表示するために何らかの方法で実行する必要があることです。

おそらく、プログラマーのコスト ($/hr) を見積もり、必要なオープンソース機能を追加するのにかかる推定時間 (60 ~ 80 時間?) を掛ける必要があります。とにかくこれが $5000 を超えるかそれに近い場合は、商用ソフトウェアを購入することを検討してください。

それ以外の場合は、(非常に優れた) PDF リファレンスの助けを借りて、順調に進んでいるはずです。

もう1つ、ポップラーが役立つかもしれません。PDFをレンダリングするためのものですが、それはあなたがやろうとしていることと非常に関連しています.

于 2009-11-13T15:40:24.060 に答える
1

A: フォント: フォントを抽出できるとは思いません。

B: マルチメディアについてよくわからない

C: ホットスポットとは何ですか?

D: iTextSharp (オープン ソース) を見てください。より多くのページ情報を抽出できる可能性があります。

于 2009-11-12T11:29:37.807 に答える
1

また、PDF からコンテンツを抽出し、PDF を画像としてレンダリングし、html に変換するように特別に設計された 3 つの SDK を含むPDF Suiteもあります。フォント ファイルの抽出はありませんが、元のレイアウトを維持したまま XML 出力とテキスト抽出をサポートします。

このエンジンに基づいた「PDF Multitool」という無料のユーティリティがあるので、それを試して、手持ちの PDF ファイルでどのように機能するかを確認してください。

免責事項: 私は ByteScout で働いています

于 2015-06-01T11:15:18.233 に答える
0

tika http://tika.apache.org/その利点は、複数の型からテキストを抽出できることです。しかし、それはあなたの問題も解決できます。

実装について: Tika の目標は、PDFBox や Apache POI などの既存のパーサー ライブラリを可能な限り再利用することです。そのため、Tika のパーサー クラスのほとんどは、そのような外部ライブラリへのアダプターです。

あなたが説明したように、tikaはうまくいくと思います。カテゴリで物事を抽出します。(後でコードを追加します。)


まだ正確な答えではありません。

于 2014-09-25T08:34:10.693 に答える
0

はい、テキスト、テキスト スタイル情報、画像、リンク注釈、ブックマークを抽出できます。表以外の段落 ID 情報を取得することもできます。このリンクを確認してください。

http://www.pdftron.com/pdfnet/index.html

それは本当にうまくいきます。

于 2011-08-02T12:35:25.247 に答える