問題タブ [voice]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
964 参照

php - PythonでのVoIP、次にhttp

こんにちは、PythonでVoIPスクリプトを作成できるかどうかを知りたいと思いました。それが機能する場合は、ウェブサイトにオンラインで統合してください。

0 投票する
1 に答える
1439 参照

asp.net - ASP.NET 音声認識アプリケーション

. 親愛なる皆様へ 私たちは ASP.NET 音声認識プロジェクトに取り組んでいます。このアプリケーションは、主にエンド ユーザーを英語でトレーニングすることを目的としています。ここでは、ログインしたユーザーが表示された画像に対して話す声をキャプチャする必要があります。

たとえば、ウェブページで男性が車を運転している画像を表示する場合、「男性が車を運転しています」というユーザーの録音された音声をキャプチャしてサーバーに送信する必要があります。

この後、サーバー側でこの音声をテキストに変換し、データベースのテキスト「A man is Driving a car」と比較する必要があります。両方が一致した場合、ユーザーは 1 ポイントを獲得し、それ以外の場合は 0 ポイントを獲得します。

では、このアプリケーションの開発方法を教えてください。参照リンクは非常に役立ちます。

どうもありがとう、よろしくアヌプリヤ。.

0 投票する
3 に答える
3967 参照

android - Androidでの音声アクティビティの検出

既存の音声認識と同様に動作するアプリケーションを作成していますが、音声データを独自のWebサービスに送信して、音声認識部分を実行します。音声認識に最適な標準のMediaRecord(AMR-NBエンコード)を使用しています。これによって提供される唯一のデータは、getMaxAmplitude()メソッドを介したAmplitudeです。

人が話し始めたときを検出して、人が約2秒間話しなくなったときに、音声データをWebサービスに送信できるようにしようとしています。現在、振幅のしきい値を使用しています。振幅が値(つまり、1500)を超えると、その人が話していると想定します。私の懸念は、振幅レベルがデバイス(つまり、Nexus One v Droid)によって異なる可能性があることです。そのため、振幅値から導き出すことができる、これに対するより標準的なアプローチを探しています。

PS私はグラフ化-振幅を見ましたが、それは振幅だけでそれを行う方法を提供していません。

0 投票する
1 に答える
574 参照

java - ブルートゥースを介して電話で瞬時にそしてリモートでコンピュータの声?

コンピュータで映画などを再生し、Bluetooth接続を介してJavaベースの携帯電話でビデオの音声を即座にリモートで聞くことができると思いますか?

電話とコンピュータ間のBluetooth接続の速度は40KB/ sのようであり、音声伝送には十分に見えます。しかし、これを実行できるソフトウェアは見つかりませんでした。誰かが私の願いの可能性について私に情報を教えてください。

0 投票する
3 に答える
1585 参照

web-applications - Web ブラウザでの音声認識

Web ブラウザ インターフェイスを介してオンライン音声認識を実装する方法。

Streaming Server (完全にブラウザベースのアプリケーション) を使用せずにこれを実装することは可能ですか? 独自のプラグインを作成せずに、Flash を使用して音声認識を実装することは可能ですか...

0 投票する
1 に答える
587 参照

c++ - 音声パケットの予測 (speex/ilbc c++)

しばらくの間、ネットワーク オーディオ チャットに gsm コーデックを使用してきました。「音声予測」のため、speex や iLBC のような機能を実装したいと思います。私が理解している限り、パケットのタイムスタンプが必要です。また、音声を予測するコーデックを作成するには、たとえば NULL パケットを渡す必要があることも知っています。

しかし、私は全体の概念を理解することはできません! つまり、アプリはパケット 1、2、3、4、5、6 を送信します。1、2、3、6 を受け取ります。どうすればいいですか?

レシーブ 1 - プレイします。

レシーブ 2 - プレイします。

レシーブ 3 - プレイしてください。

6 を受け取ります - うーん... 4,5 を NULL としてプレイし、次に 6 をプレイしますか?

あまりにも多くのパケットが失われるとどうなりますか?

0 投票する
1 に答える
500 参照

java - .jarをフラッシュプロジェクトに統合する

.jarファイルをフラッシュプロジェクトに統合する必要があります。プロジェクトは次のようなものです。

Play、Pause、Stopコマンドを備えたWebブラウザ用のフラッシュビデオプレーヤーがあります。プレーヤーのアクションをトリガーするには、音声コマンドを使用する必要があります。音声認識を行う.jarがあるので、このファイルをFlashPlayerと統合したいと思います。

これは可能ですか?

PS:なぜ私が他のツールを使わないのか不思議に思うかもしれませんが、それは与えられた資料を使った大学向けのプロジェクトなので、私は本当にFlash+この与えられた.jarを使う必要があります。

0 投票する
1 に答える
1074 参照

ruby-on-rails - Railsアプリケーションに統合できるマルチユーザーボイスチャットアプリケーションが必要

複数のユーザー間のボイスチャットに使用できるRailsプラグインはありますか?または、railsアプリケーションと統合できる他の言語のマルチユーザーボイスチャットアプリケーション?

熱心に助けを待っています。

0 投票する
0 に答える
473 参照

macos - MacOS でのテキスト読み上げの音声

Apple が Text-to-Speech の音声を保存するために使用する形式に関するドキュメントはありますか? すでにそのような音声を生成できるアプリケーションはありますか? ほとんどの情報は「PCMwave」ファイルに含まれていると思いますが、どのような構造になっているのかわかりません。

0 投票する
1 に答える
1677 参照

python - Google 音声 API

pygooglevoice を使用して転写されたボイスメールのテキストを抽出する方法はありますか? メッセージを印刷すると、単にファイル名が印刷されます。