0

現在、.wav ファイルを取り、音声内の可聴音声をテキスト トランスクリプトに変換する音声からテキストへの変換モデルを使用しています。このモデルは、以前は直接録音された .wav オーディオ録音で機能していました。しかし今、私はビデオ内に最初に存在していたオーディオで同じことをしようとしています.

手順は次のとおりです。

  • ffmpeg を介してストリーム URL からビデオ ファイルを取得する
  • ビデオから .aac オーディオを取り除く
  • .aac オーディオを .wav に変換します
  • 後で使用するために.wavをs3に保存します

私が使用する ffmpeg コマンドは、参考のために以下にリストされています。

  rm /tmp/jonas/*
  ffmpeg -i {stream_url} -c copy -bsf:a aac_adtstoasc /tmp/jonas/{filename}.aac
  ffmpeg -i /tmp/jonas/{filename}.aac /tmp/jonas/{filename}.wav
  aws s3 cp /tmp/jonas/{filename}.wav {s3_audio_save_location}

今の問題は、私のスピーチからテキストへのモデルがこのオーディオで機能しなくなったことです。sox を使用してオーディオを変換していますが、sox はオーディオを取得していないようです。また、ソックスがないとモデルは機能しません。これにより、.wav オーディオ フォーマットに違いがあると思われるため、動作する .wav と同じ設定で .wav をフォーマットする方法、 または .wav を比較する方法を見つける方法を知りたいと思います。オーディオのフォーマットを変更し、ffmpeg を介して手動で新しい .wav を正しいフォーマットに設定します

PyPy exiftool を試してみたところ、2 つのファイルのメタデータが見つかりました。

作業中の .wav ファイルのメタデータは次のとおりです。ここに画像の説明を入力

動かない.wavファイルのメタデータはここに画像の説明を入力

ご覧のとおり、動作中の .wav ファイルにはいくつかの異なる設定があり、2 番目の .wav ファイルで模倣したいと考えています。これにより、おそらくモデルが再び動作するようになります :)

敬具、ジョナス

4

1 に答える 1

0

.aac から .wavs への変換を次の行に調整する必要がある答えを見つけました。

ffmpeg -i /tmp/jonas/{filename}.aac -ac 1 -ar 8000 /tmp/jonas/{filename}.wav

.aac はビデオから直接コピーします。-ac はチャンネル数を調整します。-ac サンプルレートを調整します

于 2020-11-18T13:54:25.800 に答える