7

次のデータを持つ (単純な srt)

1
00:02:17,440 --> 00:02:20,375
Senator, we're making our final

2
00:02:20,476 --> 00:02:22,501
approach into Coruscant.

...

Elasticsearchでインデックスを作成する最良の方法は何ですか? ここで問題があります。検索結果のハイライトを、タイムスタンプが示す正確な時間にリンクさせたいのです。また、複数の srt 行に重複するフレーズがあります (final approach上の例のように)。

私のアイデアは

  • リスト タイプとして srt ファイルにインデックスを付けます。タイムスタンプがインデックスです。これは、複数のキーが重複するフレーズには一致しないと思います
  • テキスト部分のみにインデックスを付けるカスタム トークナイザーを作成します。その場合、elasticsearchが元のコンテンツをどれだけうまく強調できるかわかりません。
  • テキスト部分のみにインデックスを付け、elasticsearch の外部でタイムスタンプにマップし直します

または、これをエレガントな方法で解決する別のオプションはありますか?

4

1 に答える 1