pdf - PDFファイルのフォーマットを解析し、テキストと画像を抽出

Question

この雑誌から、テキストと画像の両方を含む「記事」を抽出する必要があります。画像コンテンツは別々に配置し、テキストは (可能な限り) 抽出して別々に配置する必要があります。

これを行うにはどうすればよいですか？すでにこれを行う商用サービス/APIはありますか? プログラム/サービスへの入力は単なるファイルになります。

(実際のファイルは通常の pdf ファイルであり、保護されたものではありません)

score 1 · Accepted Answer

Docotic.Pdf ライブラリは、PDF ファイルから画像とテキストを抽出できます。

タスクのサンプルをいくつか示します。

抽出した画像は、JPEG および TIFF として保存できます。各ページまたはドキュメント全体からテキストを抽出できます。また、座標を使用してテキストチャンクを抽出できます。

免責事項: 私は、ライブラリのベンダーである Bit Miracle で働いています。

score 0 · Accepted Answer

商用オプションがあれば、Amyuni PDF Creatorを使用すると、pdfファイル内のすべてのコンポーネント（テキスト、画像など）を列挙でき、それらを独立したオブジェクトとして抽出して、新しいPDFファイルを作成できます。

score 0 · Accepted Answer

これを試してください：

同じコンポーネントに画像抽出機能もあります。

あなたは試してみることができます!!

score 0 · Accepted Answer

Aspose.Pdf.Kitを使用して、PDF ファイルからテキストと画像を個別に抽出できます。API は非常に単純です。また、Aspose Web サイトでサンプル、チュートリアル、およびサポートを見つけることができます。

注: 私は Aspose で開発者エバンジェリストとして働いています。

4 に答える 4