問題タブ [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
82 参照

python - 手動で転写された .wav ファイルのタイムスタンプを生成するための Python

.wav ファイルの音声と無音のタイムスタンプの生成を自動化しようとしています。

私の入力: 英語の音声を含む複数の .wav ファイル。これらの .wav ファイルはすべて、手動で転写されています。

私の目標: 話されたテキストの開始と終了、および 2 秒を超えるすべての無音のタイムスタンプを生成すること。

私が今まで試したこと: Python を使用して .wav ファイルを 2 秒以上の無音で分割しましたが、これは機能しています。stackoverflow の以下のコードを使用しました。

この後、Deepspeech を使用して、分割された音声のチャンクを文字起こししてみました。

しかし、一部のチャンクが長すぎるため、Deepspeech を実行できませんでした。そのため、コードが実行されて停止するだけです。また、短くするためにどこで分割すればよいかわかりません。

この時点で私が探しているのは 、無音で分割して作成したチャンクを転写する方法を見つけることです。

  1. .wav ファイルを使用してモデルをトレーニングし、音声の書き起こしを簡単する方法はありますか?
  2. または、タイムスタンプの生成が簡単になるように、.wav ファイルとその書き起こしを使用する簡単な方法はありますか? (最初はインターネット以外の方法をお勧めします...)

私の質問が明確であることを願っています。 ありがとう!