mime-types - Tika：Js、CssのMIMEタイプ検出

Question

私はApacheTikaを使用して、あらゆる種類のファイルのテキストを抽出しています。また、これを使用して、ファイルの正しいMIMEタイプを検出したいと思います。

これは、たとえば...

...ただし、対象外：

（これらのMimeタイプの結果は、私のアプリケーションとtika-appからのものです）。

私のアプリケーションtext/cssには、一般的なのではなく、のような正確なMIMEタイプが必要ですtext/plain。これはティカで可能ですか？

score 2 · Accepted Answer

あなたは2つのことをする必要があります。まず、ファイル名をTikaに提供する必要があります。これを使用して、プレーンテキストタイプを適切なサブタイプ（CSS、JSなど）に特化することができます。次に、十分に新しいバージョンのTikaを使用していることを確認する必要があります。

Tikaの最新バージョンを試してみましたが、ファイル名を渡すと、JSファイルとCSSファイルを問題なく検出できます。

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css 
text/css

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript

また、最新バージョンのTika（r1400795以降）には、JSとCSSの検出が機能することを自動的に検証する単体テストがあるため、正常に機能することを二重に確認できます。

1 に答える 1