1

私はApacheTikaを使用して、あらゆる種類のファイルのテキストを抽出しています。また、これを使用して、ファイルの正しいMIMEタイプを検出したいと思います。

これは、たとえば...

  • PDF-ファイル(application/pdf
  • HTMLファイル(text/html

...ただし、対象外:

  • CSS-ファイル(text/plainの代わりにtext/css
  • Javascript-ファイル(text/plainの代わりにtext/javascript
  • ..。

(これらのMimeタイプの結果は、私のアプリケーションとtika-appからのものです)。

私のアプリケーションtext/cssには、一般的なのではなく、のような正確なMIMEタイプが必要ですtext/plain。これはティカで可能ですか?

4

1 に答える 1

2

あなたは2つのことをする必要があります。まず、ファイル名をTikaに提供する必要があります。これを使用して、プレーンテキストタイプを適切なサブタイプ(CSS、JSなど)に特化することができます。次に、十分に新しいバージョンのTikaを使用していることを確認する必要があります。

Tikaの最新バージョンを試してみましたが、ファイル名を渡すと、JSファイルとCSSファイルを問題なく検出できます。

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testCSS.css 
text/css

$ java -jar tika-app-1.3-SNAPSHOT.jar --detect testJS.js
application/javascript

また、最新バージョンのTika(r1400795以降)には、JSとCSSの検出が機能することを自動的に検証する単体テストがあるため、正常に機能することを二重に確認できます。

于 2012-10-22T09:11:00.797 に答える