2

音声認識を含むアプリを構築しています - Android の音声認識サービスまたは音声入力機能を使用するつもりです。

私が読んだことによると、スピーチはほとんどクラウドで処理されます。私が持っている質問は、オーディオがクラウドに送信される形式を誰か知っているかどうかです。たとえば、WAV、MP3、PCM のようなものですか、それともまったく別のものである可能性が高いですか?

これは主に、舞台裏で何が起こっているのかをもう少し知りたいという単純な好奇心からであることを認めます。(しかし、部分的には、認識に対する前処理と後処理の影響への関心にも関連しています。)

4

1 に答える 1

2

ええと、私もその情報を探していましたが、最も近いものは、FLACオーディオ コーデックを使用するChrome用の Google の音声認識 API でした。Androidもそれを使用しているかどうかはわかりませんが、これは私が今までに得たものに最も近いものです.

于 2012-10-17T09:55:03.340 に答える