1

.wav ファイルの音声と無音のタイムスタンプの生成を自動化しようとしています。

私の入力: 英語の音声を含む複数の .wav ファイル。これらの .wav ファイルはすべて、手動で転写されています。

私の目標: 話されたテキストの開始と終了、および 2 秒を超えるすべての無音のタイムスタンプを生成すること。

私が今まで試したこと: Python を使用して .wav ファイルを 2 秒以上の無音で分割しましたが、これは機能しています。stackoverflow の以下のコードを使用しました。

from pydub.silence import split_on_silence
import deepspeech
import numpy as np

def match_target_amplitude(sound, target_dBFS):
    change_in_dBFS = target_dBFS - sound.dBFS
    return sound.apply_gain(change_in_dBFS)

sound = AudioSegment.from_wav("/content/gdrive/My Drive/Surf.wav")
normalized_sound = match_target_amplitude(sound, -20.0)
chunks = split_on_silence(normalized_sound, min_silence_len=2000, silence_thresh=-30)
for i, chunk in enumerate(chunks):
    fullPath = "/content/gdrive/My Drive/{number}-Surf-{length}.wav".format(number=i+1, length=len(chunk))
    chunk.export(fullPath, format="wav")

この後、Deepspeech を使用して、分割された音声のチャンクを文字起こししてみました。

しかし、一部のチャンクが長すぎるため、Deepspeech を実行できませんでした。そのため、コードが実行されて停止するだけです。また、短くするためにどこで分割すればよいかわかりません。

この時点で私が探しているのは 、無音で分割して作成したチャンクを転写する方法を見つけることです。

  1. .wav ファイルを使用してモデルをトレーニングし、音声の書き起こしを簡単する方法はありますか?
  2. または、タイムスタンプの生成が簡単になるように、.wav ファイルとその書き起こしを使用する簡単な方法はありますか? (最初はインターネット以外の方法をお勧めします...)

私の質問が明確であることを願っています。 ありがとう!

4

0 に答える 0