問題タブ [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - C#でGoogle Speech2Textを使用しようとしています
次の単純なコードは、Wave ファイルを Google Speech2Text サービスに投稿しようとしますが、常に「ゲートウェイ タイムアウト (504)」または一般的な例外「操作がタイムアウトしました」で失敗します。誰でも助けてもらえますか?
どうもありがとう。
シュジャート
java - 音声認識サーバーをセットアップするには?
HTML5's x-webkit-speech
サーバー側で音声認識を実装する方法 ( javascript などを提案しないでください) ? プログラムはオーディオ ファイルを入力として受け取り、十分な精度でオーディオ ファイルのテキスト トランスクリプションを提供します。使用できるオプションは何ですか?
VoxforgeモデルでSphin4を実装しようとしましたが、精度が非常に悪いです(私の設定にも問題がある可能性があります.私はまだそれを学ぼうとしています). ある投稿で<input name="speech" id="speech" type="text" x-webkit-speech />
、入力を使用すると外部サーバーに送信され、そのサーバーが認識を行い、データをブラウザーに送り返すことを読みました。
そのサーバーをどのようにセットアップできますか? 最小限のエラー率で英語の文章を認識できれば、既存のオープン ソース サーバーも役に立ちます。
android - CMU Sphinx は最大 200 語を認識するように設定できますか
音声コマンドを認識できる Android アプリが必要なクライアントがいます。私が理解していることから、組み込みの音声からテキストへの機能は実際にデータを Google のサーバーに送信し、Google のサーバーからテキストの翻訳が返されます。音声データは非常に機密性が高いため、これは大きな問題です (データが Google との間で送受信されるときに暗号化されている場合を除きますが、暗号化されているとは思えません)。
私が考えることができる2つのオプションがあります。1 つ目は、Android で音声をテキストに変換することですが、これは非常にコストのかかる操作のように思えます。2 番目の可能性は、ローカル サーバーにデータを変換させることです (音声データが送受信されるときに、音声データと翻訳を暗号化できます)。これは CMU Sphinx がやってのけることができるものですか? アスタリスクサーバーにもアクセスできることは注目に値するかもしれませんが、これはおそらくこれを支援する可能性があります(わかりません)。
実際には、認識が必要な単語は 200 語までしかないはずです。私はオープンソース/フリー ソフトウェア ソリューションを好みますが、商用ソリューション (おそらく FlexT9) にもオープンです。理想的には、オーディオ ストリームをどこかに送信して、テキストである文字列を取得し、その文字列を解析して他のことを行うことができます。
私は過去にアンドロイドや音声認識の開発をあまり行っていないので、誰かが少なくとも私を正しい方向に向けることができることを願っています. ありがとう!
iphone - 多言語でのテキスト読み上げ
私は ispeech API を完全に実装することに成功しました。音声をテキストに変換するアプリについては、 http: //www.ispeech.org/developers を参照してください (SDK http://www.ispeech.org/instructions/sampleprojects/のデモ アプリを参照してください)。 iphone/IntegrationGuide.html )。しかし、残念なことに、私たちが話していることを英語でしか話さず、それをテキストに翻訳してしまいます。
私が必要なもの。
ユーザーが話したことを聞き取り、それをテキストに変換する「話す」ボタンがあります(英語では問題なく機能します)。このアプリのスクリーンショット ( http://screencast.com/t/7vBFH565qD )に見られるように、ユーザーが言語を選択できるようにする別のボタンもあります。したがって、ユーザーが選択した言語で話すと、同じ言語に変換されます。私の場合、私たちが何を話しても、入力は英語でのみ行われます..
皆さんありがとう..
python - tasker/sl4a/python を使用して話すことでテキストを送信する
tasker
話すときにテキストを送信するために使用しています。しかし、私の.py
ファイルは私のスピーチをクリップボードに保存しているようには見えません。最初にクリップボードを変数として保存し、後でそれが重要な場合に備えてリセットしていることがわかります。
これが私がこれまでに持っているものです...
- 変数セット (名前:%SAVECLIP To:%CLIP) If (%CLIP Is Set)
- クリップボードを設定 (テキスト:重要ではありません。)
- スクリプトを実行 (名前:SpeechToClip.py)
- 待機時間 (MS: 秒:2 分:0 時間:0 日:0)
- SMS を送信 (番号: 数字 テキスト:%CLIP)
- クリップボードを設定 (Text:%SAVECLIP Add:Off) If (%SAVECLIP Is Set)
- 変数クリア (名前:%SAVECLIP)
私の.py
ファイルはメモ帳で作成され、私のsl4a/scripts
フォルダーにコピーされました。これが私の.pyファイルの内容です...
.py
クリップボードがまだ「重要ではない」ため、このファイルでエラーが発生していると思います。受信したテキストメッセージにも「重要ではありません」と書かれています。私が話すことの代わりに。
ヘルプ/アドバイスをいただければ幸いです。
c# - Microsoft Speech Platform 11 (サーバー) の AppendDictation?
私は C# と Microsoft Speech プラットフォームの両方に比較的慣れていませんが、無料のディクテーションを書き起こす必要があるサーバー アプリケーションに取り組んでいます。MS Speech Platform SDK は完璧に見え、GrammarBuilder で AppendDictation() メソッドを参照しない限り、サーバー上で動作します。
Microsoft Speech Platform SDK 11 を使用しており、文法を定義するとアプリケーションは正常に動作しますが、AppendDictation() を追加すると、次のエラーが発生します。
ドキュメントのこのサンプルでさえ失敗するようです:
奇妙なことに、LoadGrammar を LoadGrammarAsync に変更すると、文法が読み込まれます (または、少なくともイベント ハンドラーが呼び出されます) が、認識エンジンは次のエラーで失敗します。
プラットフォームのサーバー バージョンがディクテーションをサポートしていないことを読みましたが、機能しない方法で出荷されるのは奇妙に思えます。サーバーでディクテーション文法を動作させることに成功した人はいますか? 私は何を間違っていますか?
どうもありがとう
powershell - Powershellは話すことができますが、私が話すと書くことができますか?
以下は、PowerShellを話すようにする方法です。
実は逆にやりたいです。私が話す場合、PowerShellはそれを文字に変換できます。
サウンドレコーダーで「ねえ、話せます」と言ったら、テキストに変換されますか?
可能であれば、それを達成する方法を教えてください。
python - Python 音声比較
2 つの .wav ファイルを比較して、同じ単語が含まれているかどうかを判断する必要があります (順序も同じです)。
私はしばらくの間、最善の方法を探してきました。pyspeech でファイルを入力として使用する方法がわかりません。CMU sphinx プロジェクトを動作させようとしましたが、GStreamer を Python 27 で動作させることはできないようです。プロジェクトは言うまでもありません。私はDragonFlyをいじりましたが、運がありません。
Python27でWin7 64ビットを使用しています。誰にもアイデアはありますか?
どんな助けでも大歓迎です。
android - Android の音声でのキーワード スポッティング?
テキストを挿入するには、音声入力を使用する必要があります。話しているときにキーワードを検出するにはどうすればよいですか?
Android Speech Input でこれを行うことはできますか、それとも外部ライブラリが必要ですか? 何か案は ?
ありがとう
speech-recognition - 私はScintillaを改善してJavaを音声で認識できるようにしようとしています。これがScintillaで可能かどうか誰かが知っていますか?
私はこれをよく調べましたが、何も役に立ちませんでした。また、これを行うためのAPIサポートはありますか?リンクやアイデアは大歓迎です。