ドキュメントのメタデータを抽出するために Tika 1.26 を使用しています。
最初に Tika Server を試し、次にプログラム API に切り替えました。それにもかかわらず、ドキュメントの が/meta APIContent-Encoding
または MetadataParserを介して返される必要があるとドキュメントに記載されていても、プロパティは実際には返されません。
実際に Charset を返す API はCharsetDetectorであることがわかりましたが、Tika サーバー経由でこの同じ API を呼び出す方法がわかりません。今のところ何の手がかりもありません。
このユースケースをモデル化する正しい方法は何か、または私が何か間違っているかどうかを誰かが指摘できますか?