問題タブ [voice-detection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
8165 参照

linux - 任意のオーディオファイルから音声の一部を抽出するための良いアプローチは何ですか?

ユーザーがアップロードしたオーディオファイルのセットがありますが、それらに何が含まれているのかわかりません。

任意の音声ファイルを取得し、誰かが話している各インスタンスを個別の音声ファイルに抽出したいと思います。実際の単語を検出したくはありません。「話し始めた」、「話しなくなった」ポイントだけを検出し、これらのポイントで新しいファイルを生成します。

(私はLinux環境をターゲットにしており、Macで開発しています)

有望に見えるSoxを見つけました。これには、「vad」モード(音声アクティビティ検出)があります。しかし、これはスピーチの最初のインスタンスを見つけ、その時点までオーディオを取り除くように見えるので、それは近いですが、完全には正しくありません。

Pythonの「wave」ライブラリも調べましたが、Soxの「vad」の独自の実装を作成する必要があります。

既成のものを実行するコマンドラインツールはありますか?そうでない場合、PythonまたはRubyの優れたアプローチはありますか?

0 投票する
3 に答える
31392 参照

android - Androidアプリケーションでの音声検出

説明


私のアプリケーションは、電話のマイクからの音を録音します。私はそれを行うためにAndroid標準クラス(android.media.AudioRecord)を使用しています。アプリケーションには、スタートボタンを押すと「開始」と「停止」の2つのボタンがあり、アプリケーションは録音を開始し、停止を押すと、アプリケーションは録音を停止し、.wav形式の音声データでバッファを返します。すべて正常に動作します。

問題


このようにアプリケーションを変更したいのですが、アプリケーションが作業を開始すると、マイクからの音の分析が始まります。ユーザーがサイレントアプリケーションを続けている場合は、マイクからの収入の音を分析し続けます。ユーザーが話し始めた場合、アプリケーションはマイクからの音を録音し始めます。次に、ユーザーが通話を終了すると、アプリケーションは録音を停止し、.wav形式の音声データを含む同じバッファーを返します。

質問


  1. そのユーザーが話し始めたことをどのように検出できますか
  2. そのユーザーが話すのをやめたことをどのように検出できますか
0 投票する
0 に答える
377 参照

android - ユーザーが話しているときに音声を録音する方法と、ユーザーが話をやめたときに録音した音声を再生する方法は?

サービス クラス内に SpeechRecognizer クラスを作成して、音声を認識し、バックグラウンドで連続して録音および再生するようにしていますが、このコードは機能しませんでした。

どうすればそれを行うことができるか、誰かが私にアイデアを与えることができますか?

これは私のアクティビティクラスです:

これは私のサービスクラスです:

0 投票する
0 に答える
139 参照

android - ユーザーが話すのをやめると自動的に録音を停止する

ユーザーの声を録音し、ユーザーが話すのをやめると録音をオフにするアプリケーションを作りたいです。どうやってやるの?

0 投票する
1 に答える
1043 参照

java - LIUM による音声アクティビティ検出 (VAD/SAR)

いくつかの音声アクティビティと無音についていくつかの GMM をトレーニングするためのシェル スクリプトを作成しました。そのため、LIUMスピーカーダイアライゼーションツールキットを使用しました。これを使用して、音声アクティビティの検出を行いたいと考えています。次のスクリプトは、Sphinx4 を使用して wav オーディオ ファイルから MFCC 機能を抽出し、これらの GMM をトレーニングして、セグメンテーションにビタビ デコードを適用します。ただし、結果は非常に貧弱です。つまり、結果のセグメンテーションは完全に間違っています。トレーニング セット自体に GMM を適用しているため、これは絶対に当てはまりません。私は何を間違っていますか?私はこれに多大な努力を払ってきましたが、まだ機能させることができません。事前に助けてくれてありがとう!

ところで: Sphinx4 のドキュメントによると、wav ファイルの入力形式を再確認しました。これはモノラル 16 ビット LE です。さらに、さまざまなパラメーター設定、特に emCtrl (GMM のトレーニング) や dPenalty (セグメンテーションのためのビタビ復号化) などのパラメーターを試しました。私にとっては何も役に立ちませんでした。

これが私のシェルスクリプトです:

0 投票する
1 に答える
788 参照

python - パッケージをインストールしようとすると Setuptools エラーが発生する

私はPythonをまったく初めて使用し、パッケージpy-webrtcvadをWindows 7にインストールしたいのですが、エラーで立ち往生していますImportError: No module named 'pip.utils.setuptools_build'。他の人にとっては問題を解決しているように見えるスタックオーバーフローでこの問題に対する答えがありますが、私にとってはうまくいきません。

これまでに行ったことと試したことの要約は次のとおりです。

  • Python 3.5 をインストールし、どのディレクトリからでも動作するように Windows パス環境をセットアップしました。
  • Python 用の pip をインストールしました。
  • でパッケージをインストールしようとしましpython -m pip install webrtcvadたが、失敗し、エラーが返されましたUnable to find vcvarsall.bat
  • vcvarsall.bat の問題を扱っているブログを見つけました: blogs.msdn.microsoft.com/pythonengineering/2016/04/11/unable-to-find-vcvarsall-bat。そのブログの指示に従ってください:
    • まず、Visual C++ Build Tools 2015 をインストールし、すぐに (setuptools を更新せずに) パッケージをインストールしようとしましたが、多くのエラー メッセージが表示されました (書き留めませんでした)。
    • https://pypi.python.org/pypi/setuptoolsの指示に従って行った setuptools の再インストールを試みました。 Python インストール (v20) に付属していた setuptools のバージョンを削除し、最新バージョン (v30) をインストールしました。 . 今回は py-webrtcvad: をインストールしようとしたときに別のエラー メッセージが表示されましたImportError: No module named 'pip.utils.setuptools_build'
  • Python の公式チャットで支援を求めました。彼らは次の 3 つの提案をしました。
    • でピップを更新していpython -m pip install --upgrade pipます。うまくいきませんでした。繰り返しますが、エラーImportError: No module named 'pip.utils.setuptools_build'.
    • Visual C++ Build Tools 2015 を再インストールします。違いはありません。同じエラーが再び発生します。
    • Python自体を再インストールします。Python インストーラーには、修復、変更、およびアンインストールの 3 つの選択肢があります。
      • 修復: 機能しませんでした。同じエラー。
      • 変更: これに役立つ変更を提供しているようには見えません。
      • アンインストール: アンインストールして再インストールしました。それでも同じエラーです。

私はアイデアがありません。手伝って頂けますか?

注: これは Windows 7 と Python 3.5 で実行できると思います。ただし、そうでない場合は、別のことを試すことにオープンです。たとえば、異なるバージョンの Python をインストールしてもまったく問題ありません。問題が解決する場合は、Linux をインストールすることもできます。

0 投票する
0 に答える
486 参照

webrtc - WebRTC ライブラリの実行方法

このライブラリを使用したい: https://github.com/voixen/voixen-vad

readme の最後にいくつかのサンプル コードが提供されています。私の質問は、どのように実行するのですか? このライブラリを統合して上記のコードを実行するには、どのようなプロジェクトを作成する必要がありますか?

どんな助けや例も素晴らしいでしょう。