3

この雑誌から、テキストと画像の両方を含む「記事」を抽出する必要があります。画像コンテンツは別々に配置し、テキストは (可能な限り) 抽出して別々に配置する必要があります。

これを行うにはどうすればよいですか?すでにこれを行う商用サービス/APIはありますか? プログラム/サービスへの入力は単なるファイルになります。

入力例: http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(実際のファイルは通常の pdf ファイルであり、保護されたものではありません)

4

4 に答える 4

1

Docotic.Pdf ライブラリは、PDF ファイルから画像とテキストを抽出できます。

タスクのサンプルをいくつか示します。

抽出した画像は、JPEG および TIFF として保存できます。各ページまたはドキュメント全体からテキストを抽出できます。また、座標を使用してテキスト チャンクを抽出できます。

免責事項: 私は、ライブラリのベンダーである Bit Miracle で働いています。

于 2011-09-01T17:41:34.173 に答える
0

商用オプションがあれば、Amyuni PDF Creatorを使用すると、pdfファイル内のすべてのコンポーネント(テキスト、画像など)を列挙でき、それらを独立したオブジェクトとして抽出して、新しいPDFファイルを作成できます。

于 2011-05-04T21:09:19.573 に答える
0

これを試してください:

http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

同じコンポーネントに画像抽出機能もあります。

あなたは試してみることができます!!

于 2011-05-04T07:23:00.433 に答える
0

Aspose.Pdf.Kitを使用して、PDF ファイルからテキストと画像を個別に抽出できます。API は非常に単純です。また、Aspose Web サイトでサンプル、チュートリアル、およびサポートを見つけることができます。

注: 私は Aspose で開発者エバンジェリストとして働いています。

于 2011-05-05T12:27:01.703 に答える