java - Java ライブラリを使用して ODT ドキュメントからフィールドを抽出する

Question

ODT ドキュメントのコンテンツからフィールドタグを抽出するには、Java ライブラリ (またはコード) を使用する必要があります。odt はある種の圧縮ファイルであり、その内容は content.xml ファイルに含まれていることは知っています。もちろん、ファイルを抽出して content.xml を開いて解析することもできますが、より高いレベルのコードが存在すると思います。一例として、コンテンツは次のようになります。

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

フィールドを ${name} と $nome として抽出したいと思います。

そのために Apache Tika を使用できることは知っていますが、実際にフィールド抽出を示す例を見つけていません。これは、使用しているフィールドが入力フィールドタグではなく非構造化テキストであるためだと思います。

前もって感謝します、ダニエル

score 2 · Accepted Answer

誰かが興味を持っている場合に備えて、odt からコンテンツを取得するために Apache Tika を使用し、次の正規表現を使用して解析しました。

\$\{[\w\-\.]*\}

java - Java ライブラリを使用して ODT ドキュメントからフィールドを抽出する

1 に答える 1

Related

Reference