問題タブ [audio-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2649 参照

opengl - このような視覚化を可能にするサウンド処理アルゴリズムはどのようなものですか?

MP3 用の OpenGL ビジュアライザーをペット プロジェクトとして作成することに興味があります。

拡張現実と組み合わせて使用​​されているビジュアライザーを誰かが披露しているこの youtube ビデオに出くわしました。

http://www.youtube.com/watch?v=SnshyLJSpnc#t=1m15s

そのビデオを見てください。ただし、そのビデオの拡張現実の側面は無視してください。拡張現実ではなく、ビジュアライザーを作成することにのみ関心があります。

音楽に関連するこれらのパターンを生成するために、どのような種類のアルゴリズムが使用されましたか? 見ると、視覚化のいくつかの異なる方法のように見えるものを見ることができます。最初のものは独特の外観を持っています:

最初のものは、レンダリング領域上を移動する波のように見えました: 代替テキスト

別の「モード」では、視覚化が同心円の中心を中心に移動するように見えました。 代替テキスト

オーディオプログラミングに精通している人なら誰でも、どのようなアルゴリズムを使用して同様の視覚化を生成できますか? 最初のアルゴリズムはどのようなアルゴリズムを使用しましたか? それとも同心円のもの?

音楽に基づいてこれらのビジュアライゼーションを生成するために使用されたアルゴリズムを教えていただけると、非常に助かります。

0 投票する
1 に答える
1895 参照

aac - AACファイルまたはAACをMP3に変換するためのライブラリのBPMを分析する方法

私は iphone 開発者で、現在 1 つの Mac アプリケーションを開発しています。これは、Mac プラットフォームでの初めてのプロジェクトです。

曲ファイルの BPM を分析する必要があります。FMOD と SoundTouch ライブラリを使用して、MP3 でこの作業を行いました。

ただし、AAC (M4A) も分析する必要がありますが、このライブラリは AAC 形式をサポートしていません。

AAC(M4A) のライブラリを検索しようとしましたが、何も得られませんでした。したがって、ココアでプログラムを使用してこの AAC ファイルを MP3 ファイルに変換できれば、そのファイルの bpm を分析できます。

ココアでAACをMp3に変換する方法を検索しようとしましたが、FAACライブラリを入手しましたが、ココアと統合するためのドキュメントがなく、複雑すぎます。

ココアプロジェクトでAACのBPMを分析するための他のライブラリについて知っている人はいますか?

大変感謝します。

0 投票する
1 に答える
2722 参照

vector - 音声処理におけるベクトル量子化の説明

この研究論文から、トレーニングセットのデータに基づいて、標準ベクトル量子化アルゴリズムを再現して、識別されていない音声入力の言語を決定する方法を正確に判断するのに苦労しています。ここにいくつかの基本的な情報があります:

抽象情報 音響機能を使用した言語認識(日本語、英語、ドイツ語など)は、現在の音声技術にとって重要でありながら難しい問題です。...この論文で使用されている音声データベースには、20の言語が含まれています。16の文が4人の男性と4人の女性によって2回発声されました。各文の長さは約8秒です。最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語は、独自のVQコードブックによって特徴付けられ代替テキストます。

認識アルゴリズム 最初のアルゴリズムは、標準のベクトル量子化(VQ)手法に基づいています。すべての言語はk、独自のVQコードブックによって特徴付けられ代替テキストます。認識段階では、入力音声がによって量子化され代替テキスト、累積された量子化歪みd_kが計算されます。最小限の歪みとして認識される言語。VQ歪みを計算すると、いくつかのLPCスペクトル歪み測定が適用されます...この場合、WLR-加重最小比-距離:

標準VQアルゴリズム: コードブック、代替テキスト

、各言語はトレーニング文を使用して生成されます。文中の入力ベクトルの累積距離![alt text] [4]は、次のように定義されます。[![alt text] [5]] [5]

距離dは、音響特性に対応する任意の距離にすることができ、コードブックの生成に使用される距離と同じである必要があります。各言語は、そのVQコードブックによって特徴付けられ代替テキストます。

私の質問は、これをどのように正確に行うのですか?私は英語で50文のセットを持っています。MATLABでは、任意の信号のWLRを簡単に計算できます。しかし、英語の「コードブック生成」にはWLRを使用する必要があるため、コードブックを作成するにはどうすればよいですか。サイズ16のVQコードブック(最適なサイズであることがわかった)を特定の入力信号と比較する方法についても興味があります。誰かが私のためにこの論文を蒸留するのを手伝ってくれるなら、私はそれを大いに感謝します。

ありがとう!

0 投票する
3 に答える
20852 参照

c++ - C ++オーディオ処理アプリケーションの書き方は?

私は電子通信の学生で、卒業式の隣にいます。DSP、音楽、オーディオ全般に関する知識を含むプロジェクトに取り組むつもりです。私はすでに、すべての基本的な数学機器と、FFT、巡回畳み込みecc eccなど、それを管理するために必要なすべてのものを知っています。

私は基本的に1つの理由でC++プログラミングを学びたいと思っています:それはプロの世界で非常に重要です!!! そして、特にリアルタイム処理に関しては、オーディオを操作するアプリケーションを作成するために最もよく使用されるものの1つだと思います。

さて、この小さな紹介の後、私は最初に知りたいのですが、C++でオーディオ処理を行うために最も使用されているライブラリはどれですか?? 私はもうウェブを探していましたが、たくさんの実用的なものを見つけることができませんでした。(私はLinuxでEclipse CDT環境で作業しています)。

次に、たとえば単純なローパスフィルターの作成方法など、実用的なコードの作成方法を学ぶための優れた情報源があるかどうかを知りたいと思います。基本的に今はリアルタイムアプリケーションを作成しません。WAVファイル、さらにはMP3ファイルの処理から始めたいので、基本的にはサンプルのベクトルを使用します。

基本的に今のところ、オーディオファイルから波形を抽出してサムネイルまたはPNG画像に保存したいとします。

さて、今のところ私が必要とするのはそれだけだと思います。

それについてのアイデア、アドバイス、図書館、本、興味深い情報源はありますか?

どんな答えでもよろしくお願いします。

ジョバンニ。

0 投票する
5 に答える
36335 参照

c - Cでオーディオwavファイルを処理する

私はwavファイルの振幅を処理し、それを小数でスケーリングすることに取り組んでいます。私は、言語のニュアンスに取り組みながら、メモリ効率の良い方法でファイルを読み書きする方法に頭を悩ませようとしています (私は C が初めてです)。ファイルは、8 ビットまたは 16 ビット形式のいずれかです。私がこれを行うと考えた方法は、最初にヘッダーデータを事前に定義された構造体に読み取り、次にループ内で実際のデータを処理して、データのチャンクをバッファーに読み取り、必要なことは何でも行います。そしてそれを出力に書き込みます。

最後にファイルサイズが異なります(40Mbファイルの場合、1k程度)。これは、ファイルが終了している可能性があるにもかかわらず、バッファ全体を出力に書き込んでいることが原因であると思われますバッファサイズ全体を満たす前に。また、出力ファイルがめちゃくちゃです - 再生も開くこともできません - だから私はおそらくすべて間違っています。私が台無しにしている場所に関するヒントは素晴らしいでしょう。ありがとう!

0 投票する
2 に答える
255 参照

video-capture - TV キャプチャ カードによる TV オーディオ処理

TV キャプチャ カードからのオーディオ信号を処理するためのオープン ソース ライブラリまたはフレームワークを探しています。アイデアは、テレビ広告のスポットを検出し、それが発生した時間とチャネルを登録することです。私はこのような仕事をしたことがないので、情報、リンク、アイデアは大歓迎です。

前もって感謝します!

編集:言語やOSは気にしません。私の目的は、私が働いている会社の特定の広告を検出することであることを明確にしたいと思います。したがって、広告のフィンガープリントを使用して、キャプチャしたデータと照合する必要があると思います。こちらも情報をお持ちの方、よろしくお願いします。

0 投票する
3 に答える
5793 参照

c# - C# または C++ でのオーディオ処理

AI 技術を使用して、ユーザーが曲の一部を録音し、wav ファイルのデータベースでその曲を検索できるようにするアプリケーションを作成したいと考えています。

オーディオ処理部分に既存のライブラリをいくつか使用したかったのです。それで、wavファイルを読んだり、マイクから入力を取得したり、いくつかのオーディオフィルター(ローパス、ハイパス、FFTなど)を持ったり、オーディオ信号をプロットしたりすることができるC#のライブラリをお勧めできますか.

私は C# で開発したいと思っていますが、オーディオ処理用の適切なライブラリがなければ、C++ でも作業できると思います。私の知る限り、Mathlab には既に上記の機能がありますが、自分のアプリケーションでは使用できません。

0 投票する
6 に答える
18536 参照

audio - 音声サンプル認識ライブラリ/コード

音声をテキストに変換するソフトウェアは必要ありません。必要なものは次のとおりです。

  • 複数 (たとえば 50 以上) のオーディオ ストリーム (ラジオ局の録音) を録音します。
  • その録音から、興味深いオーディオ クリップをマークします - その長さは 2 秒から 60 秒の範囲です - そのようなオーディオ クリップは数千あります
  • ライブラリは、録音されたサウンド ストリームから同じオーディオ クリップの他のインスタンスを見つけることができる必要があります。
  • 信頼係数は使用済みに報告し、追加の入力を提供して、次回の認識がより適切に実行されるようにする必要があります

そのようなソフトウェアライブラリを知っていますか? 私にとっては LGPL が最も価値がありますが、商用ライセンスを取得することもできます。

オーディオ クリップには、音楽、テキスト、エフェクト、またはそれらの任意の組み合わせが含まれます。したがって、TEXT 認識は問題外です。

アーキテクチャ: C++、グルー用の C#、可能であれば CUDA。

0 投票する
1 に答える
5898 参照

ruby - Ruby のオーディオ処理ライブラリ?

Ruby でオーディオ処理を行うためのライブラリに関する推奨事項。次の 2 つのタスクを実行する必要があります。

  • 沈黙を見つけてください。波の各サンプルを反復処理できるのはうれしいことです。
  • wav ファイルの一部をカット アンド ペーストして、新しい wav ファイルを作成します。
  • wav を mp3 に変換します。

C# ライブラリである NAudio に相当するものを探しています。

0 投票する
1 に答える
199 参照

audio - Verizon SongID-どのようにプログラムされていますか?

VerizonのSongIDプログラムに慣れていない人は、VerizonのVCastネットワークからダウンロードできる無料のアプリケーションです。曲の途中で10秒間曲を聴き、このデータを全知のアルゴリズムの獣に送信します。この獣はそれを噛み砕き、すべてのID3タグ(アーティスト、アルバム、曲など)を送り返します。

最初の2つの部分と最後の部分は単純ですが、録音されたサウンドが送信された後の処理中に何が起こりますか?

サウンドファイル(どの形式?)を取り、それを(どのように?何で?)いくつかの重要な識別子(これらは何ですか?波動関数の通常の属性?位相/シフト/振幅など)を解析し、チェックする必要があると思いますデータベースに対して。

これがどのように機能するかについてオンラインで見つけたものはすべて、上記で入力したもののような一般的なものです。

audiotag.infoから

このサービスは、高度なオーディオ指紋技術と大規模な曲のデータベースを組み合わせた高度なオーディオ認識アルゴリズムに基づいています。オーディオファイルをアップロードすると、オーディオエンジンによって分析されます。分析中に、そのオーディオの「指紋」が抽出され、音楽データベースと比較することによって識別されます。この認識プロセスが完了すると、一致する確率を持つ曲に関する情報が画面に表示されます。