.tex
Apache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。
Tika はコンテンツ タイプを正しく検出できますが、application/x-tex
そこから何も抽出しません。
コマンドを試してみました
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
また、次のコード スニペット:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);