次のデータを持つ (単純な srt)
1
00:02:17,440 --> 00:02:20,375
Senator, we're making our final
2
00:02:20,476 --> 00:02:22,501
approach into Coruscant.
...
Elasticsearchでインデックスを作成する最良の方法は何ですか? ここで問題があります。検索結果のハイライトを、タイムスタンプが示す正確な時間にリンクさせたいのです。また、複数の srt 行に重複するフレーズがあります (final approach
上の例のように)。
私のアイデアは
- リスト タイプとして srt ファイルにインデックスを付けます。タイムスタンプがインデックスです。これは、複数のキーが重複するフレーズには一致しないと思います
- テキスト部分のみにインデックスを付けるカスタム トークナイザーを作成します。その場合、elasticsearchが元のコンテンツをどれだけうまく強調できるかわかりません。
- テキスト部分のみにインデックスを付け、elasticsearch の外部でタイムスタンプにマップし直します
または、これをエレガントな方法で解決する別のオプションはありますか?