問題タブ [pyaudioanalysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 音声の検出と識別のためのオープン ソース コード
私は 15 本のオーディオ テープを持っていますが、そのうちの 1 本には祖母と私が話している古い録音が含まれていると思います。適切な場所をすばやく見つけようとしても、うまくいきませんでした。それを見つけるために 20 時間もテープを聞きたくない。この場所は、いずれかのテープの先頭ではない可能性があります。ほとんどのコンテンツは 3 つのカテゴリに分類されるようです。長さの長い順に、サイレンス、スピーチ ラジオ、音楽です。
すべてのテープをデジタル形式に変換してから、もう一度録音を探す予定です。明らかな方法は、私が他のことをしている間、それらすべてをバックグラウンドで再生することです。それは私にとってあまりにも単純すぎるので、洗練度と有用性が増す順に、私が見つけることを可能にするオープンソースライブラリまたは他のコードはありますか?
- 非サイレント領域
- 人間の声を含む領域
- 私自身のスピーチ (および私の祖母のスピーチ) を含む地域
私の好みは、Python、Java、または C です。
私はその分野について何も知らないので、失敗した答え、検索用語に関するヒントをいただければ幸いです。
これに 20 時間以上を簡単に費やすことができることを理解しています。
python - Python - 等しい長さのサンプルのオーディオ分類/「ボコーダー」のようなもの
次のリンク、アドバイス、またはその他の形式のヘルプを提供できる人はいますか?
目的 - Python を使用して 10 秒のオーディオ サンプルを分類し、後でマイクに向かって話し、Python が db から最も近い一致のスニペット (一緒にフェード) を選択して再生できるようにします。
私の目的は、最も近い一致を得ることではなく、オーディオ サンプルのソースが何であるかは気にしません。したがって、結果はおそらく、ノイズの中で話す (楽しい) 以外には役に立たないでしょう。
Python アプリで、たとえば db の 10 秒のサンプル内で FFT の特定の一致を見つけられるようにしたいと考えています。マイクのリアルタイム サンプリングには 100 ミリ秒のバッファサンプルがあると思います。
何か案は?FFT? 何デシベル?他の?
python-2.7 - pyAudioAnalysis の使用中に「行に NULL バイトが含まれています」というエラーが表示される
私は pyAudioAnalysis を使用していくつかのオーディオ データで回帰を実行しようとしています。ただし、 を実行するaT.featureAndTrainRegression(args)
とError: line contains NULL byte
、csv ファイルがスキャンされます。
私はオンラインで掘り下げました.csvからnullバイトを削除または無視する方法について多くのアドバイスがありますが、それらのアプローチにはあまり運がありませんでした; すべてのヌルバイトを調べて削除すると、オリジナルとは似ていない純粋なgobbledygookのcsvが残りましaudioTrainTest
た.pyAudioAnalysis. つまり、誰もがエラーに遭遇するとは信じられないほど多くの人がこれを使用しているので、ライブラリの根性をいじらずに解決する方法があるに違いありません。
OS10.9でMacを実行しており、PyCharmでPython 2.7を使用しています。アドバイスをいただければ幸いです。前もって感謝します!
python - pyAudioAnalysis、範囲外のタプル インデックス
だから私はpyAudioAnalysis ライブラリを使用して基本的な感情分類器を作成しようとしています。それが機能するかどうかをテストするために小さなデータサンプルを収集しました。私のコードは次のとおりです。
これを実行すると、次のエラーが発生します。
shape[1]
配列次元の列を返すことになっていることは知っ ています。しかし、なぜここでエラーを返すのですか
python - Python 2またはPython 3で1GBのオーディオファイルを読み取る方法は?
Python で大きな音声ファイルを読みたいです。そして、それを多数のウェーブ ファイルに分割して保存します。ライブラリ呼び出し pyAudioAnalysis をダウンロードし、次のようにコードを記述します。
ただし、これは 1 GB を超えるファイルを処理できません。この問題を解決する方法はありますか? ありがとうございました。