問題タブ [voice]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
voip - 対話型音声応答プラットフォームは何ですか?
音声スペースで作業している方のために、IVRプラットフォームとして何を使用していますか?Microsoft Speech Server 2007を使用しています。同等のパッケージにはどのようなものがありますか?インバウンドまたはアウトバウンドの通話を処理するためにオープンソースソフトウェアを使用している人はいますか?包括的なパッケージの1つのコンポーネントである音声認識について話しているだけではないことに注意してください。IVRプラットフォームは、音声認識、テキスト読み上げ、VoiceXMLなどのVUIテクノロジー、およびSIPまたはテレフォニーハードウェアを介した通話終了で構成されます。
speech-recognition - 開発者向けの音声認識ソフトウェア
ドキュメントは最終的にそれを言った、私は数ヶ月間手首を楽にする必要がある. 私は .NET 開発者なので、これで私の生計がしばらく途絶える可能性があります。とはいえ、開発者向けの優れたハンズフリー オプションはありますか? 音声認識ソフトウェアを使って成功した人はいますか?
追記: 両手でのプログラミングが問題にならないところまで腕を回復させました。ドラゴン 当然のことながら、十分に機能しましたが、思ったよりも速くプログラミングしていたキーボードとは異なり、遅くなりました。
python - 入力オーディオストリームから周波数情報を抽出する方法 (PortAudio を使用)?
PortAudio(PyAudio)を使って音(声)を録音し、対応する音波を画面に出力したい。絶望的ですが、オーディオ ストリームから周波数情報を抽出して、Hz/時間形式で描画することができません。
録音した音声を 5 秒間録音して再生するコード スニペットの例を次に示します。
上記の変数「データ」から必要な情報を抽出したいと思います。(または、PortAudio または Python バインディングを備えた別のライブラリを使用して、他の高レベルのアプローチを使用します。)
どんな助けにもとても感謝しています!漠然と関連するオーディオ分析の知恵のヒントでさえ、高く評価されます。:)
browser - ブラウザで音声を録音する方法は?
ユーザーがブラウザーで自分の声を録音し、結果の mp3 を Web サーバーに自動的にアップロードする必要があります。
これを行うには、ユーザーが大きな太い録音開始/録音停止ボタンを押すと思います。
これにより、ユーザーのハードディスクにファイルが保存されます。次に、それは効率的に圧縮され、Web サイトに自動的に ftp されます。
ActiveX またはおそらく Java を使用してこれを行うことは可能ですか? または、役立つライブラリがありますか?
このアプリケーションは、必要に応じてソフトウェアをインストールできるユーザー向けであるため、exe などをインストールすることができます。
どんな提案でも大歓迎です。
voice - 変数からサブダイアログの 'src' を取得する VXML
私たちのビジネスは、古い ASP システムから新しい ASP.NET システムに移行しています。これには、データベースの大幅な改善が含まれます。古いものと新しいものが並存する共存の時代がやってきます。
共存が必要なアプリの 1 つは、私たちが使用しているボイスメール システムです。次のように機能します。
- ユーザーが呼び出します。
- ユーザーが口座番号を入力します。
- ユーザーはそのアカウントのメッセージを記録します。
- ユーザーは、再録音、承認、または破棄するオプションを取得します。
共存中に、既存のアプリが変更されています。ユーザーが新しいシステム (異なる識別番号を使用する) に変換されたアカウント番号を入力すると、シームレスに続行できるようにしたいと考えています。アカウント検証システムは現在、アカウント名、アカウント番号、および (共存のために) 正しい記録ページへのパスを返しています。
ユーザーがメッセージを録音して受け入れる (または電話を切る) と、サブダイアログを起動してメッセージをデータベースに記録します。
サブダイアログの呼び出しを変更して、変数の内容を src として受け入れるにはどうすればよいですか?
voice - 録音タイムアウト時のVXMLビープ音
前の質問で述べたVXMLアプリケーションは、現在テスト中です。ユーザーがメッセージを録音できるようにした後(最大長5分)、標準メニュー(送信、再生、再録音など)に移動します。
私たちのテスターの1人は、何にでも飽きて5分間のメッセージを残すことにうんざりしていて、電話番号を含む送信した電子メールを読んでいました。彼女はメニューが始まった直後に「2つ」と言ったが、メニューのほんの一瞬しか聞こえなかった。
言うまでもなく、彼女は非常に混乱していた。
私にとって、これを修正する正しい方法は、録音を開始するビープ音のように、録音に決定的な停止を追加することであるように思われます。
レコードアイテムには、記録の開始時にビープ音を鳴らすビーププロパティがあります。これを使用します。ユーザーが最大時間に達したときにビープ音を鳴らすプロパティへの参照が見つかりません。
maxtimeに達したときに、途切れないビープ音を最後に追加するにはどうすればよいですか?
android - Android での SMS 自動応答
まず、プログラミングとは関係のない質問です。私の電話は、不在着信に対してテキスト メッセージで自動応答しています。私の電話はどこでそれを行うアイデアを得たのですか?どうすれば停止できますか?
プログラミングに関する質問: 不在着信に応答して、電話番号をメールで送信したり、SMS の自動応答をカスタマイズして、おそらく自分の位置情報を返信したりするように、Android に任意の処理をさせるにはどうすればよいでしょうか。
usability - 使いやすさ:音声認識とキーパッド
ますます多くの音声認識が実装されており、優れた音声認識を行うライブラリが求められています。キーボードやキーパッドと比較して、その背後にある(使いやすさの観点からの)理論的根拠は何ですか?この開発に投資しなければならない理由は何ですか?
たとえば、コールセンターを見てみましょう。数年前、ほとんどすべてのコールセンターは、メニューのキーを要求するIVRを使用していました。現在、音声キーワードの入力やキーパッドの押下を伴うメニューがますます増えています。「請求書を言うか、1を押して請求書を表示してください」。または、会社の電話帳にも同じことが表示されています。「連絡しようとしている人の名前を言ってください」...「FranckLoyd」...「JackFreudと言いましたか?必要に応じて「はい」と言ってくださいこの人に連絡するか、「いいえ」と言って再試行してください。」
携帯電話を持たずに車に乗っているときはプラスだと思いますが、追加の待ち時間の価値はありますか?すべての選択肢に対する相互作用が長くなり、何かが言われたかどうかを分析しようとする際の迅速な時間が長くなりますか?また、信頼性は確かに以前よりも優れていますが、誰かがシステムに接続することを決めたおもちゃのように感じられることもあり、未来を感じることができます。
音声認識を使用した(または使用しないことを選択した)IVRまたはソフトウェアを設計した経験はありますか?
ありがとう!
speech-recognition - 「ボイストリガー」検出
「トリガーワード」を使用してオーディオの録音を開始する機能があれば、大幅に改善される音声アプリケーションがあります。完全な音声テキスト エンジンは必要ありません。トリガー ワードを確実かつ効率的に検出する機能だけが必要です。
この特定のユースケースをサポートする特殊な音声エンジン、またはそのような単一目的の検出エンジンを開発するためのライブラリ/方法があるかどうか疑問に思っています。理想的には、騒がしい環境で動作することを望みますが、1 人のユーザーの声に対してトレーニングすることもできます。
研究論文/トピックへのポインタも高く評価されるので、私は何を求めるべきかを知っています.