4

Google の音声テキスト機能 (ボイスメールの Google Voice 自動文字起こし、YouTube の動画の自動キャプションなど) は非常に印象的だと思います。

Google が API を介して利用できるようにしているかどうかを確認しましたが、そうではないようです (私が彼らを責めているわけではありません!)。ただし、音声をテキストに変換する機能を提供するクラウド コンピューティング サービスは非常に優れています。

スピーチからテキストへのアクセスに使用できるある種の「ハック」はありますか。私のアーキテクチャは基本的にこれに帰着します - 入力として短い 15-20 秒の wav/mp3/other クリップ、出力は平文です。

アイデアはありますか?

4

6 に答える 6

3

多くの Speech to Text API があります。Google が提供していないからといって、運が悪いわけではありません。

これはC#に適したものです。プラットフォームが .NET でない場合は、他のプラットフォームを検索できます。

http://cmusphinx.sourceforge.net/

于 2010-11-06T23:57:22.490 に答える
2

これをチェックしてください:http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/

現在、PHP で API を実装しようとしています。

-- セス

于 2011-04-16T01:32:19.790 に答える
1

C# を使用した次の実装を見ることができます - 私は Mike Pultz リンクを使用しました。

https://github.com/seigneur/Voice-Biometrics Sox を使用して flac に変換し、小さな SOX スクリプトを作成してチャンクに分割しました。

于 2013-05-06T06:23:56.780 に答える
1

Chrome 8 または Opera 経由で HTML5 で利用できます: https://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1

Google 音声技術には、Android フォンの Android API からもアクセスできます。

Sphinx などの他の製品は、「制約のない」音声からテキストへの変換ではなく、特定のドメインで最適に機能する音声認識エンジンです。

于 2010-12-09T11:47:55.997 に答える
1

本当にGoogleの出力が必要な場合...これはハック方法です

電話サブミッション エンジンの作成について考えたことはありますか? 基本的に、Google ボイスメールを呼び出します... mp3 を再生します。

https://code.google.com/p/google-voice-java/経由で出力を引っ掛けます

より良い答えが存在します。

于 2014-12-02T04:14:10.013 に答える
1

以下は、Peter Moffatt の提案のより最近の、より「公式な」バージョンです。

http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html

そして、Googleの関連発表:

http://chrome.blogspot.com/2011/03/talking-to-your-computer-with-html5.html

于 2011-07-18T17:28:38.080 に答える