問題タブ [kaldi]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 問題

0 投票する

1 に答える

1812 参照

unity3d - Unity での Vosk (Kaldi) オフライン音声認識

Vosk ライブラリを Unity プロジェクトに実装して使用するにはどうすればよいですか? ステップ1、2、3を書いてください... ここにVoskライブラリ - https://github.com/alphacep/vosk-api

2020-08-14T06:13:02.647

0 投票する

1 に答える

173 参照

python-3.x - .wav オーディオファイルの設定を新しい .wav ファイルにコピーする

現在、.wav ファイルを取り、音声内の可聴音声をテキストトランスクリプトに変換する音声からテキストへの変換モデルを使用しています。このモデルは、以前は直接録音された .wav オーディオ録音で機能していました。しかし今、私はビデオ内に最初に存在していたオーディオで同じことをしようとしています.

手順は次のとおりです。

ffmpeg を介してストリーム URL からビデオファイルを取得する
ビデオから .aac オーディオを取り除く
.aac オーディオを .wav に変換します
後で使用するために.wavをs3に保存します

私が使用する ffmpeg コマンドは、参考のために以下にリストされています。

今の問題は、私のスピーチからテキストへのモデルがこのオーディオで機能しなくなったことです。sox を使用してオーディオを変換していますが、sox はオーディオを取得していないようです。また、ソックスがないとモデルは機能しません。これにより、.wav オーディオフォーマットに違いがあると思われるため、動作する .wav と同じ設定で .wav をフォーマットする方法、 または .wav を比較する方法を見つける方法を知りたいと思います。オーディオのフォーマットを変更し、ffmpeg を介して手動で新しい .wav を正しいフォーマットに設定します

PyPy exiftool を試してみたところ、2 つのファイルのメタデータが見つかりました。

作業中の .wav ファイルのメタデータは次のとおりです。

動かない.wavファイルのメタデータは

ご覧のとおり、動作中の .wav ファイルにはいくつかの異なる設定があり、2 番目の .wav ファイルで模倣したいと考えています。これにより、おそらくモデルが再び動作するようになります :)

敬具、ジョナス

python-3.x ffmpeg wav speech-to-text kaldi

2020-11-18T10:15:20.833

1 2 3 4 5 6 7 8 9 10

問題タブ [kaldi]

unity3d - Unity での Vosk (Kaldi) オフライン音声認識

python-3.x - .wav オーディオ ファイルの設定を新しい .wav ファイルにコピーする

Reference

python-3.x - .wav オーディオファイルの設定を新しい .wav ファイルにコピーする