linux - オーディオソースとオープンソースツールを使用して、事前に書き起こした音声の時間インデックスを効率的に生成する

Question

TED.com には文字起こしがあり、文字起こしの一部をクリックすると、ビデオの適切なセクションに移動します。

OSS を使用した Linux で、所有している 80 時間のオーディオと文字起こしに対してこれを実行したいと考えています。

これは私が考えているアプローチです：

これは効率的なアプローチのように思えますか? 誰かが実際にこれをやったことがありますか？

十分に正確である可能性のある愚かな単語カウントのように、試す価値のある代替アプローチはありますか?

score 0 · Accepted Answer

すべての音声とテキストを長い音声アライナにフィードするだけで、単語のタイムスタンプが得られます。このタイムスタンプを使用して、ファイル内の特定の単語にジャンプできます。

オーディオを分割したり、他のことをしたい理由がわかりません。

linux - オーディオ ソースとオープン ソース ツールを使用して、事前に書き起こした音声の時間インデックスを効率的に生成する