音声認識を含むアプリを構築しています - Android の音声認識サービスまたは音声入力機能を使用するつもりです。
私が読んだことによると、スピーチはほとんどクラウドで処理されます。私が持っている質問は、オーディオがクラウドに送信される形式を誰か知っているかどうかです。たとえば、WAV、MP3、PCM のようなものですか、それともまったく別のものである可能性が高いですか?
これは主に、舞台裏で何が起こっているのかをもう少し知りたいという単純な好奇心からであることを認めます。(しかし、部分的には、認識に対する前処理と後処理の影響への関心にも関連しています。)