Lucene を使用していくつかの xml ドキュメントのインデックスを作成する必要がありますが、その前に、これらの XML を解析してタグ内の情報を抽出する必要があります。
XML は次のようになります。
<?xml version="1.0" encoding="UTF-8"?>
<tt xml:lang="es" xmlns="http://www.w3.org/2006/04/ttaf1" xmlns:tts="http://www.w3.org/2006/04/ttaf1#styling">
<head>
<styling>
<style id="bl" tts:fontWeight="bold" tts:color="#FFFFFF" tts:fontSize="15" tts:fontFamily="sansSerif"/>
</styling>
</head>
<body>
<div xml:lang="es">
<p begin="00:00.50" end="00:04.02" style="bl">Info</p>
<p begin="00:04.32" end="00:07.68" style="bl">Different words,<br />and phrases to index</p>
<p begin="00:11.76" end="00:16.04" style="bl">Text</p>
<p begin="00:18.52" end="00:22.88" style="bl">More and<br />more text</p>
</div>
</body>
</tt>
タグ begin と end 内のタイムスタンプのみを抽出し、p タグ内のテキストにインデックスを付ける必要があります。目標は、索引付けされたテキストを照会して、それぞれがヒットしたタイムスタンプのギャップを知ることです。
たとえば、「テキスト」という単語をクエリすると、出力は次のようになります。「2 ヒット、00:11.76-00:16.04、00:18.52-00:22.88」
Lucene を使用して XML 全体のインデックス作成を開始しました。今、私はファイルを解析したいのですが、この問題を解決するための最良の近似が何であるかわかりません.
どんな助けやアドバイスも大歓迎です:) ありがとうございます!