1

.texApache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプル ファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。

Tika はコンテンツ タイプを正しく検出できますが、application/x-texそこから何も抽出しません。

コマンドを試してみました

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

また、次のコード スニペット:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
4

1 に答える 1

0

Tika は .tex ファイル拡張子の検出をサポートしていますが、それに対するパーサーはまだありません。

.tex ファイルを解析するための優れた Java ライブラリ (理想的には Apache Licensed) を見つけることができる場合は、Tika JIRA (https://issues.apache.org/jira/browse/TIKA) で新しい拡張リクエストを開くことをお勧めします。 )、そのライブラリに基づいて Tex パーサーを要求します。

于 2011-03-31T22:01:09.823 に答える