こんにちは、ユーザーが話した音声を認識してテキスト形式にする音声認識 API または SDK が必要です。
詳細な説明は次のとおりです。
私のアプリケーションでは、オーディオ ファイルとそのテキストを再生する必要があります。音声の再生が始まると、(音声ファイルから) 話されている単語が強調表示されます。
したがって、api または sdk から単語を取得できれば、それを強調表示できます。
それとは別に、私はAPIについて多くのグーグル検索を行い、 ceedvocalsdkに出くわしましたが、無料試用版は利用できません.
誰かが私の要件または api または sdk にこれ以外のアイデアを提供できる場合、私は非常に感謝します。