split - スピーチを単語に分割する方法

Question

私は音声認識で遊んでいます。音声を複数の単語に分割することは可能ですか？

可能であれば、ライブラリでサポートされているスピーチを単語に分割することをお勧めします。

ありがとう

score 3 · Accepted Answer

話者が言ったことを知っている場合は、単語 (または音素) のタイムアラインメントを生成するために強制アラインメントを実行できます。CMU Sphinx、HTK、Kaldiなどのツールキットでこれを実行できます。話者が何を言っているのかわからない場合は、標準の音声認識を実行し、時間情報を使用して単語の境界を取得できますが、認識出力にエラーがある可能性があります。

score 0 · Accepted Answer

どのフレーズが発音されたかについての事前情報がないため、このタスクはかなり困難です。VADをスピーチに適用し、一時停止によって音を単語に分割する方法の1つとして。しかし、自発的なスピーチの場合、人々はしばしばいくつかの単語の間にポーズをとらない。だから確かに問題があるでしょう。

ここでは、いくつかのVADライブラリが提案されています。

split - スピーチを単語に分割する方法

2 に答える 2

Related

Reference