問題タブ [voice]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio - ピッチ/ノートの「ホイッスル」サウンドを分析する
誰かの口笛の記録を処理してメモを出力できるシステムを構築しようとしています。
Wave ファイルのノート/ピッチ認識と分析のベースとして使用できるオープンソース プラットフォームを推奨できる人はいますか?
前もって感謝します
iphone - 独自のアプリをプログラムし、音声コマンドを使用してアプリ内の特定の機能をトリガーしようとしています
誰かが私を助けてくれたら、私は永遠に彼らの借金を負うことになります.
詳細に行き詰まることなく、たとえば、アプリケーションが現在起動されている間に、「機能Aをアクティブにする」という言葉を言うと、アプリに既に存在する特定の機能が、が有効になります。
私は自分自身を明確に説明しましたか?つまり、電話機の画面には「機能 A」と書かれたボタンがあります。ソフトウェアが「武装」されてリスニング モードになっている場合、ユーザーが「機能 A をアクティブにする」という言葉 (または任意の他のフレーズ) を言うだけで、画面オプションが選択されるようにしたいと考えています。ユーザーは手でボタンを押すのではなく、音声コマンドを介してオプションを選択/アクティブ化します。
プログラマーと私は、この新しい音声コマンド機能を組み込むのに困難に直面しました。たとえば、音声コマンドを使用して Google 検索を行うことは明らかに可能であるにもかかわらずです。SMSディクテーションアプリ、メール作成アプリなど、他の音声コマンドアプリが現在流通しているため、音声コマンドアプリを作成することは明らかに可能です. これが可能かどうか知っている人はいますか? もしそうなら、この機能を実装する方法についてアドバイスはありますか?
質問2
音声コマンドで機能 A を有効にできない場合、音声コマンドを使用して電話機に電話をかけることは可能で、この電話はサーバーによって受信されますか? 次に、サーバーは iPhone に「ping」を送信し、機能 A をアクティブにするように指示しますか? この回避策が機能するためには、正確なフレーズを判別する機能が必要です。つまり、ユーザーに「関数 A を呼び出す」という言葉を強制することはできません。関数を起動するフレーズを選択する機能が必要です。うまくいけば、私は明確でした。
言い換えれば、音声コマンドを使用してアプリ内の特定の機能をアクティブにすることに関して直面している障害に対する潜在的な回避策として、電話に既に存在する音声コマンド機能を利用することは可能ですか? 別名、電話をかけるには?そして、この呼び出しはサーバーによって受信され、サーバーはそれに応じて、呼び出しを行った電話に ping を送信し、機能を有効にするように指示しますか?
アプリケーションがサーバーから命令を受信できるようになる前に、アプリケーションを現在起動する必要があることは明らかです。
誰かがこの厄介な問題を解決するのを手伝ってくれるなら、あなたが私の人生を変えると言っても過言ではありません!
親切な魂の1人が提供できる助けを前もって本当にありがとう!!!
マイケル
modem - ZyXELADPCMコーデック
ZyXEL USB Omni56K Duoモデムを使用していて、音声ストリームを送受信したいのですが、適切な品質に到達するには、プレーンPCMのサンプリングレートが小さすぎて中品質の音声を送信できないため、「ZyXELADPCM」エンコーディングを実装する必要があります。また、USBでも機能しません(おそらく、このビットレートでさえUSB-Serialコンバーターには高すぎるためです)。
この不思議なコーデックは、Microsoft WAV関連のすべてのライブラリで、理論的にサポートされている多くのコーデックの1つと見なされていますが、実装は見つかりませんでした。
誰かが任意の言語または多分いくつかのドキュメントで実装を提供できますか?カスタムのmu-lawデコードアルゴリズムを作成することは、私にとって問題にはなりません。
ありがとう。
client - グループ インスタント メッセージと音声の両方の機能を備えた、変更可能なフラッシュ ベースの Web クライアントはありますか?
グループ インスタント メッセージと音声機能の両方を備えた、変更可能なフラッシュ ベースの Web クライアントを探しています。オープンソースまたは独自のソリューションを知っている人はいますか?
cocoa - ココアでボイスチャットを実装する方法は?
クライアントノードがチャットサーバーアプリケーションを介して相互にメッセージを送信できるAsyncSocketクラスを使用して簡単なチャットアプリケーションを作成しました。ボイスチャット機能を統合したいのですが、正しい方向を示すことができる資料がネット上にありません。
誰かが私にその開始に役立ついくつかの有用なリンクやアイデアを提案できますか?
ありがとう、
ミラジ
cocoa - SSpeechRecognizerデリゲートは、話された単語に対して呼び出されます
NSSpeechRecognizerについて読んだところ、デリゲートで関連付けられている一連のコマンドを認識できることがわかりました。-speechRecognizer:didRecognizeCommand:簡単な質問があります。このデリゲートは、ユーザーが話す任意の単語に対して呼び出すことができますか?私が思うように..それに関連付けることができるのは有限数の単語だけです!
ありがとう、
ミラジ
cocoa - CocoaのJabberベースのサーバーおよびクライアントアプリケーション
現在テキストチャットをサポートしているアプリケーションを実装しました。今はボイスチャットと後でビデオチャットを実装したいのですが、クライアントから提供される時間が少なくなっています。:(それで、Cocoaでいくつかのオープンソースコードを使用することを計画しています。これを使用して、アプリケーションに簡単に組み込むことができます。
インターネットで分析した結果、Jabber関連のクライアント/チャットサーバーアプリケーションが私の要件に最適であることがわかりました。
Jabberベースのクライアントサーバーアプリケーションがいくつかあることがわかりましたが、それらは主にJava、C、またはC ++で記述されており、Cocoa指向ではありません。
CocoaベースのJabberサーバーとクライアントアプリケーションのリンクやコードを誰かに提案してもらえますか?
また、サーバーアプリケーションがCで構築され、クライアントアプリケーションがCocoaで構築されているとしましょう。そうすると、クライアントノード間でテキストメッセージやマルチメディアメッセージを送信できるようになりますか?
grammar - # 終了数字または *1 または *2 に一致するように VoiceXML で文法を記述する
私は VoiceXML アプリを作成していますが、問題が発生しています。アプリケーションは DTMF トーンのみをリッスンします。
ユーザーは、確認番号に続けて # を入力します。また、*1 または *2 を入力してカスタマー サービスと話すか、確認メッセージを再送信することもできます。
これで機能するグラマーを作成するのに問題があります。私は組み込み型を使用することができましたがdigits?minlength=1、termchar=#確認コードには問題ありません。digitsまた、構築された機能を本質的に複製する文法を作成することもできました。
*1 または *2 の機能が動作しません。終端文字がないため、特別です。
誰もこれにアプローチする方法の手がかりを持っていますか? ここで髪を失います.... ありがとうございます。
.net - プログラムで電話をかけるために使用できるソフトウェアまたはサービスは何ですか?
オプトイン要求に基づいて、顧客に電話のリマインダーをプログラムで作成することを検討しています。私はテレマーケティング担当者ではありません。
電話をかけ、メッセージを再生する必要があります。留守番電話またはボイスメールが検出された場合、ビープ音の後にメッセージを残す必要があります。メッセージが正常に配信されたかどうかを知る必要があります。
理想的には、ボタンを押して選択内容を記録することで、ユーザー フィードバックを提供できます。
私は Windows と .NET を好みますが、何でも検討します。
何を指示してるんですか?
android - 録音されたサウンドクリップを使用したアンドロイドの音声認識?
Android の音声認識機能を使用しましたが、気に入っています。これは、お客様から最も高く評価されている機能の 1 つです。ただし、形式には多少制限があります。認識エンジンの意図を呼び出し、文字起こしのために録音を Google に送信させ、テキストが返されるのを待つ必要があります。
私のアイデアの中には、アプリ内でオーディオを録音し、そのクリップを Google に送信して文字起こしする必要があるものがあります。
オーディオ クリップを送信して、音声をテキストに変換する方法はありますか?