この雑誌から、テキストと画像の両方を含む「記事」を抽出する必要があります。画像コンテンツは別々に配置し、テキストは (可能な限り) 抽出して別々に配置する必要があります。
これを行うにはどうすればよいですか?すでにこれを行う商用サービス/APIはありますか? プログラム/サービスへの入力は単なるファイルになります。
入力例: http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(実際のファイルは通常の pdf ファイルであり、保護されたものではありません)