私は現在自分のプロジェクトに取り組んでおり、デスクトップ コンピューター用の Siri のようなアプリケーションを構築しようとしています。Google Speech API が信頼性が高く、音声認識が正確かどうかを考えています。音声認識に関して最も正確な音声 API を教えてください。最も望ましいのは無料の API です。ありがとうございました。
1 に答える
Google Speech API は無料ですが、公式の公開 API ではありません。このブログで説明されているように、リバース エンジニアリングを行った人もいます。商用製品の API に直接アクセスすることを計画している場合は、お勧めしません。警告なしに API を削除したり変更したりして、製品を壊してしまう可能性があるからです。これは最近、Google Weather APIを使用する開発者に起こりました。x-webkit-speechを使用して Chrome ブラウザからアクセスしている場合一方、Google によってサポートされているため、おそらく安全です。Google の音声認識は、より一般的な商用ソリューションの多くですぐれています。彼らは、Google Voice や現在は廃止された Google 411 などの他のプロジェクトで、多くの経験を積んできました。私が考えることができる唯一の他の無料の代替手段は、カーネギーメロン大学のオープンソースプロジェクトであるSphinxです。このソリューションを使用した学習曲線は急であり、サービスとしてセットアップしたい場合は、自分で開発する必要があります。 Nuanceは、音声認識市場のもう 1 つの大きなプレーヤーであり (Siri が使用していると思います)、Nuance は音声認識をサービスとして提供するソリューションを提供しています。しかし、それらは高価です。
言語サポートに関するコメントからの回答の更新
Windows 音声認識は、ほとんどの音声認識システムと同様に、他の言語をサポートしています。ただし、使用する言語をシステムに指示する必要があり、問題の言語をサポートする必要があることに注意してください。各ベンダーには、サポートする言語のリストがあり、それらは地域に固有です。たとえば、ベンダーはメキシコ スペイン語、アメリカ スペイン語、スペイン スペイン語をサポートしている場合があります。方言が少しずつ異なります。ただし、音声認識エンジンは、ユーザーごとに 1 つのタイマーで 1 つの言語/方言しかサポートできません。ユーザーは、最初にその言語に変更するよう要求しない限り、音声認識システムに対して複数の言語を話すことはできません。
2014 年 3 月 17 日更新
x-webkit-speech 入力フィールドは、他のブラウザーではサポートされていないため、廃止されています。これは、javascript API であるWeb Speech APIに置き換えられます。ここで使用方法の例を見つけることができます。