私は音声認識で遊んでいます。音声を複数の単語に分割することは可能ですか?
可能であれば、ライブラリでサポートされているスピーチを単語に分割することをお勧めします。
ありがとう
私は音声認識で遊んでいます。音声を複数の単語に分割することは可能ですか?
可能であれば、ライブラリでサポートされているスピーチを単語に分割することをお勧めします。
ありがとう
話者が言ったことを知っている場合は、単語 (または音素) のタイム アラインメントを生成するために強制アラインメントを実行できます。CMU Sphinx、HTK、Kaldiなどのツールキットでこれを実行できます。話者が何を言っているのかわからない場合は、標準の音声認識を実行し、時間情報を使用して単語の境界を取得できますが、認識出力にエラーがある可能性があります。
どのフレーズが発音されたかについての事前情報がないため、このタスクはかなり困難です。VADをスピーチに適用し、一時停止によって音を単語に分割する方法の1つとして。しかし、自発的なスピーチの場合、人々はしばしばいくつかの単語の間にポーズをとらない。だから確かに問題があるでしょう。
ここでは、いくつかのVADライブラリが提案されています。