PDF ファイルからコンテンツを抽出するソリューションを探しています (コンソール ツールまたはライブラリを使用)。
アップロードされた PDF ファイルからオンライン電子ブックを生成するためにサーバー上で使用されます。
次のものを抽出する必要があります。
- フォントとスタイルを含むテキスト;
- 画像;
- オーディオとビデオ;
- リンクとホットスポット。
- ページのスナップショットとサムネイル。
- 一般的な PDF 情報 (ブック レイアウト、ページ数など)。
Adobe PDF Library (ただし 5000 ドル)、BCL SDK (?)、PDFLib (795 ユーロ)、QuickPDF (250 ドル) を見てください。
現在、オープン ソースの pdf2xml (テキスト、画像、リンクを抽出) と GhostScript (スナップショットとサムネイル) を使用しています。他に残っているものは次のとおりです。
- フォント;
- マルチメディア;
- ホットスポット;
- ページ情報。
私たちは多額のお金を払うか (そして間違ったソリューションを選択して間違いを犯す可能性があります)、無料またはオープンソースのソリューションを使用するかをためらっています。
PDF からほぼすべてを抽出するための最適なソリューションはどれですか?
どんなコメントでも大歓迎です。