tex - Tika を使用して .tex ファイルからテキストを抽出する

Question

.texApache Tika を使用してファイルからテキストを抽出するにはどうすればよいですか? サンプルファイルはhttp://www.tug.org/texshowcase/EulerGibbsDuhem.texにあります。

Tika はコンテンツタイプを正しく検出できますが、application/x-texそこから何も抽出しません。

コマンドを試してみました

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

また、次のコードスニペット:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

score 0 · Accepted Answer

Tika は .tex ファイル拡張子の検出をサポートしていますが、それに対するパーサーはまだありません。

.tex ファイルを解析するための優れた Java ライブラリ (理想的には Apache Licensed) を見つけることができる場合は、Tika JIRA (https://issues.apache.org/jira/browse/TIKA) で新しい拡張リクエストを開くことをお勧めします。 )、そのライブラリに基づいて Tex パーサーを要求します。

tex - Tika を使用して .tex ファイルからテキストを抽出する

1 に答える 1

Related

Reference