doc、xls、ppt、pdf などのドキュメント内の画像を検出するにはどうすればよいですか?
Apache Tika に出くわしました。コマンド ライン オプションを試しています。http://tika.apache.org/1.2/gettingstarted.html
私はPython2.7を使用しています..
しかし、どのように画像を検出するかはよくわかりません。
私はDjangoの初心者です。どんな助けでも大歓迎です。
ありがとう
doc、xls、ppt、pdf などのドキュメント内の画像を検出するにはどうすればよいですか?
Apache Tika に出くわしました。コマンド ライン オプションを試しています。http://tika.apache.org/1.2/gettingstarted.html
私はPython2.7を使用しています..
しかし、どのように画像を検出するかはよくわかりません。
私はDjangoの初心者です。どんな助けでも大歓迎です。
ありがとう
このスレッドは古く、現在この問題にはさまざまな解決策があるため、復活させています。tika の開発者の 1 人である Chris Mathamm は、JCC ライブラリの c++ バインディングを使用して jvm にアクセスし、tika を実行する tika の Python 統合を作成しました。ここで見つけることができます。
ポータル変換を使用した Plone 用の Apache Tika 統合もあります。 tika-jaxrs サーバーを使用してドキュメントを解析します。