2

TED.com には文字起こしがあり、文字起こしの一部をクリックすると、ビデオの適切なセクションに移動します。

OSS を使用した Linux で、所有している 80 時間のオーディオと文字起こしに対してこれを実行したいと考えています。

これは私が考えているアプローチです:

  1. 30 分のサンプルから始めましょう
  2. 音声を 2 分間の WAV ファイル形式のチャンクに分割します (単語が分割されている場合でも)
  3. トランスクリプトを使用して、各チャンクで CMU Sphinx の long-audio-aligner からフレーズ スポッターを実行します。
  4. 各ビットで見つかった識別された単語/フレーズの時間インデックスを取得し、元のオーディオ ファイル内の ngram の実際の推定時間を計算します。

これは効率的なアプローチのように思えますか? 誰かが実際にこれをやったことがありますか?

十分に正確である可能性のある愚かな単語カウントのように、試す価値のある代替アプローチはありますか?

4

1 に答える 1

0

すべての音声とテキストを長い音声アライナにフィードするだけで、単語のタイムスタンプが得られます。このタイムスタンプを使用して、ファイル内の特定の単語にジャンプできます。

オーディオを分割したり、他のことをしたい理由がわかりません。

于 2012-07-04T16:05:14.983 に答える