doc、xls、ppt、pdf などのドキュメント内の画像を検出するにはどうすればよいですか?
Apache Tika に出くわしました。そのコマンド ライン オプションを試しています。 http://tika.apache.org/1.2/gettingstarted.html
しかし、どのように画像を検出するかはよくわかりません。
どんな助けでも大歓迎です。
ありがとう
doc、xls、ppt、pdf などのドキュメント内の画像を検出するにはどうすればよいですか?
Apache Tika に出くわしました。そのコマンド ライン オプションを試しています。 http://tika.apache.org/1.2/gettingstarted.html
しかし、どのように画像を検出するかはよくわかりません。
どんな助けでも大歓迎です。
ありがとう
コマンドラインソリューションを使用し、Javaコードを記述したくないとおっしゃっていたので、それを行うのに最も美しい方法にはなりません... Javaを少し書いて、 Pythonから呼び出す新しいプログラムを使用すると、より適切に実行できます。
最初に行うことは、Tikaアプリにファイル内の埋め込まれたリソースを抽出させることです。このためのオプションを使用し、--extract
アプリが制御する特別な一時ディレクトリで抽出を実行します。
$ java -jar tika.jar --extract ../testWORD_embedded_pdf.doc
Extracting 'image1.emf' (application/x-emf)
Extracting '_1402837031.pdf' (application/pdf)
可能であれば、抽出の出力を取得し、それを解析して画像を探します(ただし、一部の画像にはapplication/
、カンコニカルmimetypeにプレフィックスが付いていることに注意してください)。いくつかの--detectステップを実行する必要があるかもしれませんが、パーサーが抽出をどのように実行するかをテストしてください。
これで、画像があった場合、それらはテストディレクトリにあります。必要に応じて処理します。最後に、ファイルの処理が完了したら、一時ディレクトリをザップします。
過去に Tika を使用したことがありますが、Tika が Office ドキュメントや PDF に埋め込まれた画像にどのように役立つかわかりません。No と答えるのは間違いでした。Apache POI や Apache PDFBox などのネイティブ API への解決を試みる必要があるかもしれません。Tika は両方のライブラリを使用してテキストとメタデータを解析しますが、埋め込み画像はサポートしていません。
Tika を使用すると、これらの API が自動的に使用可能になります (Tika を使用することの副作用)。
更新: Tika 0.8 以降: EmbeddedResourceHandlerと例を探してください - Gagravarr に感謝します。