私はしばらくTikaを使用してきましたが、ファイルを表すデフォルトまたはカスタムのTikaConfigでTikaファサードのみを使用することになっていることを知っていorg/apache/tika/mime/tika-mimetypes.xml
ます。
私のアプリケーションでは、以下と異なるドキュメント タイプは許可されませんhtml,doc,docx,odt,txt,rtf,srt,sub,pdf,odf,odp,xls,ppt,msg
デフォルトの MediaTypes には他にもたくさんの種類が含まれています。
tika-mimetypes.xml を変更して、不要な MimeTypes を削除する必要がありますか? 次に、私が理解しているように、これらの MimeTypes に対してのみ複合パーサーと検出器を作成します。
しかし、サポートされていないタイプが提供された場合はどうなりますか? TikaException または SAXException をキャッチして、ファイルを拒否する必要がありますか?
また、 tika-mimetypes.xml を手動で編集するにはどうすればよいですか? 1290 の MimeType があり、ほとんどがばかげたサード パーティの MimeType です。なぜ彼らはそこにいるのですか?