speech-recognition - Speech to Text API または Google の Speech to Text 機能を使用できる「ハック」はありますか?

Question

Google の音声テキスト機能 (ボイスメールの Google Voice 自動文字起こし、YouTube の動画の自動キャプションなど) は非常に印象的だと思います。

Google が API を介して利用できるようにしているかどうかを確認しましたが、そうではないようです (私が彼らを責めているわけではありません!)。ただし、音声をテキストに変換する機能を提供するクラウドコンピューティングサービスは非常に優れています。

スピーチからテキストへのアクセスに使用できるある種の「ハック」はありますか。私のアーキテクチャは基本的にこれに帰着します - 入力として短い 15-20 秒の wav/mp3/other クリップ、出力は平文です。

アイデアはありますか？

score 3 · Accepted Answer

多くの Speech to Text API があります。Google が提供していないからといって、運が悪いわけではありません。

これはC#に適したものです。プラットフォームが .NET でない場合は、他のプラットフォームを検索できます。

score 2 · Accepted Answer

現在、PHP で API を実装しようとしています。

-- セス

score 1 · Accepted Answer

C# を使用した次の実装を見ることができます - 私は Mike Pultz リンクを使用しました。

https://github.com/seigneur/Voice-Biometrics Sox を使用して flac に変換し、小さな SOX スクリプトを作成してチャンクに分割しました。

score 1 · Accepted Answer

Chrome 8 または Opera 経由で HTML5 で利用できます: https://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1

Google 音声技術には、Android フォンの Android API からもアクセスできます。

Sphinx などの他の製品は、「制約のない」音声からテキストへの変換ではなく、特定のドメインで最適に機能する音声認識エンジンです。

score 1 · Accepted Answer

本当にGoogleの出力が必要な場合...これはハック方法です

電話サブミッションエンジンの作成について考えたことはありますか? 基本的に、Google ボイスメールを呼び出します... mp3 を再生します。

より良い答えが存在します。

score 1 · Accepted Answer

以下は、Peter Moffatt の提案のより最近の、より「公式な」バージョンです。

そして、Googleの関連発表：

6 に答える 6