10

私はコンピュータビジョンに精通しており(よく知っています)、そのうちの1つのアプリケーションは光学式文字認識などの画像認識であると思います。しかし、私がもっと興味を持っているのは、私が今学んだ「コンピューターリスニング」であり、デジタル信号処理と見なされます。

信号処理について私が最も興味を持っているのは、音楽への応用の可能性です。少し前に、誰かがギターを弾いている録音を聞いて、実際に演奏されたノート/コードをタイムライン全体に自動的にグラフ化できるアプリケーションのプレビュー(名前を忘れてしまいました)を見たのを覚えています。 。プログラムを使用して、ユーザーはこれらを移動したり、編集したりすることができました。さて、明らかにこれははるかに複雑ですが、同じことを含みますか?信号処理?また、音楽ビジュアライザーやインテリジェント照明システムでの可能なアプリケーションにも興味があります。

私の理解では、MP3などの圧縮オーディオ形式でこの処理を実行しても、別々のトラックを含むMIDIと同じ結果は得られません(誤解されているかもしれません)。PCMなどの非圧縮形式はMP3よりも優れていますか?サウンド処理については何も知りません。これまで読んだことから推測していることです。

私はすでにこの質問を見てきました。この質問には、私の質問の多くをカバーするすばらしい回答とリンクがあります。しかし、私が見つけたリンクのほとんどは理論的なものであり、すべて興味深いものであり、この主題に興味があることを考えると間違いなく読む価値がありますが、これを容易にする既存のライブラリがあるかどうかを知りたいと思いました、または、コンピュータサイエンス/プログラミングを対象としたこの主題に関連する記事(おそらくサンプルコード付き)。オープンソースのサウンド/音楽ビジュアライザーやその他のオープンソースのサウンド処理コードでさえ素晴らしいでしょう。

意味がわからなかったらごめんなさい。私が言ったように、私は私が何について話しているのかわかりません。

4

4 に答える 4

16

信号処理について私が最も興味を持っているのは、音楽への応用の可能性です。少し前にアプリケーションのプレビューを見たのを覚えています (名前を忘れてしまいました)

もしかしてキューバ

誰かがギターを弾いている録音を聞いて、実際に演奏された音符/コードをタイムラインに沿って自動的にグラフ化することができます

非常に単純化すると、ノートを演奏すると、特定の周波数で周期的な波が生成されます。波をスペクトルに変換する数学的トリック (フーリエ変換 DFT) があります。これは、強度を時間に対して示す代わりに、波の周波数に対して表示します。たとえば、音叉からの完全な A 音は、440 Hz の振動波を生成します。時間領域では、これは正弦波として表示されます。周波数領域では、440 Hz を中心とする単一の狭いスパイクとして表示されます。

さて、ギターを弾いても完全な正弦波は発生しません。A を叩くと、基本周波数 440 Hz が生成されますが、多くの追加周波数 (たとえば 880、オクターブ高いだけでなく、他の多くの高低周波数も) が生成されます。これらの追加の周波数はハーモニクスと呼ばれ、基音と混ざり合って「ギターの音」(音楽用語で音色と呼ばれるもの)を生成します。別の楽器 (ピアノなど) では、ハーモニクスと基音の混合が異なり、異なる音色が生成されます。

DSP プログラムが行うことは、入力信号に対して DFT を実行することです。追加のトリックで、彼らは基音とハーモニクスを見つけ、見つけたものに従って、あなたが演奏した音を推測します。ライブ演奏中に音符を見つけて特別なトリックをトリガーする可能性があるため、これは迅速に行われる必要があります。たとえば、ギターで A の音を叩くと、DSP が A であると認識し、ピアノの A に置き換えて、スピーカーからピアノの音を得ることができます。

プログラムを使用すると、ユーザーはこれらを移動したり、編集したりすることさえできました。さて、明らかにこれはもっと複雑ですが、同じことが関係しているのでしょうか? 信号処理?また、音楽ビジュアライザーやインテリジェント照明システムへの応用にも興味があります。

はい。周波数ドメインに入ると、物事は非常に簡単になります。たとえば、声の周波数に応じて特定のライトを点灯させ、バスドラムで別のライトを点灯させることができます。

私の理解では、MP3 などの圧縮されたオーディオ形式でこの処理を行っても、別のトラックを含む MIDI と同じ結果が得られないということです (私の誤解かもしれません)。

それらは2つの異なるものです。MP3 は、音波を圧縮した形式です。基本的には、スピーカーを操縦するものを取り、それを圧縮します。考え方は同じです。DFT を行ってから、聞こえにくいものを削除します (たとえば、高強度の音の直後に発生する高いピッチは聞こえにくいため、削除されます)。

一方、MIDI はイベントの巻物です (ご存じのとおり、極西部のピアノのように巻物が巻かれています)。ファイルには音楽が含まれていません。代わりに、MIDI プレーヤーが特定の楽器で特定の時間に特定の音符を演奏するための指示が含まれています。「楽器バンク」の品質は、(とりわけ) 悪い MIDI プレーヤー (子供のおもちゃのように聞こえる) と良い MIDI プレーヤー (特にピアノやバイオリン、管楽器ではリアルに聞こえる) を区別するものです。現実的なものを聞く必要があります)。

MIDI から MP3 に移行するには、MIDI プレーヤーを介して演奏するだけです。あなたが言ったように、逆を行うことはまったく別の話であり、はるかに複雑です.DSPが登場するのはここです.

フィスクタンクを沸騰させるようなものです。あなたは魚のスープを手に入れます。しかし、魚のスープから水槽に戻すのは、はるかに困難です。

PCM などの非圧縮形式は MP3 よりも優れていますか?

PCMは、アナログ信号をデジタル信号に変換する技術です。したがって、あなたの質問には、PCM形式が存在しないという根本的な誤解があります(RAW形式は危機に瀕しており、基本的には粗いデータしか含まれていません)。非圧縮の WAV (PCM データを含む) が MP3 よりも優れているかどうかを尋ねる場合は、イエスですが、人間の耳にとってこれがどれほど重要であるか、およびそのデータに対してどれだけの後処理を実行する必要があるかという疑問が生じることがあります。

これを容易にする既存のライブラリがあるかどうか、またはこのテーマに関連するコンピューター サイエンス/プログラミング向けの記事がサンプル コードとともにあるかどうかを確認してください。オープン ソースのサウンド/ミュージック ビジュアライザーや、その他のオープン ソースのサウンド処理コードも素晴らしいでしょう。

Pythonが好きなら、このページを見てください

意味がわからなかったらごめんなさい。おっしゃるとおり、何を言っているのかわかりません。

私もそうではありませんが、少しいじってみました。

于 2009-10-27T01:12:04.430 に答える
6

私の理解では、MP3 などの圧縮されたオーディオ形式でこの処理を行っても、別のトラックを含む MIDI と同じ結果が得られないということです (私の誤解かもしれません)。

MIDI には、基本的に楽器情報と音符が保存されます。その他のエフェクト(ボリューム、ピッチベンド、ビブラート、アタックレートなど)

デジタル信号処理ではありません。

PCM などの非圧縮形式は MP3 よりも優れていますか?

多分多少; アプリケーションによって異なります。MP3 は、人間が感知できない周波数の精度を低下させます。ビジュアライゼーションを行いたい場合は、MP3 で十分です。

しかし、たとえば、録音で演奏されている楽器の種類を特定したい場合は、人間が感知できない周波数に有用な情報が隠されている可能性があります。

The Scientist and Engineer's Guide to Digital Signal Processingは、プログラマーにとって優れたリファレンスだと思います。第 8 章では、離散フーリエ変換 (MP3 処理やその他の多くの場所で、波の成分周波数を分離するために使用されます) について説明します。

これを使用して、マウスで波を描画し、DFT を適用して、含める周波数を選択できるグラフィカル プログラムを作成しました。それは素晴らしい運動でした。

于 2009-10-27T00:42:48.030 に答える
1

少し前に、誰かがギターを弾いている録音を聞いて、実際に演奏された音符/和音をタイムライン上に自動的にグラフ化できるアプリケーション (名前は忘れました) のプレビューを見たのを覚えています。 .

Melodyne についても考えているかもしれません: http://www.celemony.com/cms/

ただし、Cubase の新しいバージョンの Vari オーディオはかなり似ています。:)

于 2011-08-22T15:08:51.147 に答える
0

何を求めているのか、何をしようとしているのかを正確に定義する必要があると思います。

DSPMIDI、またはPCMについて学びたい場合は、ウィキペディアと参考文献に多くの情報があります。

利用可能なオーディオ操作用のアプリケーションは無数にあります。あなたが質問で説明したことは、すべてのデジタル レコーディング スタジオ (最近ではほぼすべてのスタジオで行われている) で毎日行われていることです。

たとえば、ギターのサウンドに対して DSP を実行する場合は、(ドラムやボーカルを含むミックス ダウン トラックではなく) ギター自体を録音するのが理想的です。かなりのレベルの「ノイズ」を含む信号を分析するよりも、ノイズを追加せずに離散信号を分析する方が良い結果が得られることは明らかです。そうです、マルチトラック録音は「MP3」よりも望ましいでしょう。

通常の MP3 には左右のチャンネル (トラック) が含まれているため、技術的にはマルチトラックです。音楽が録音されると (少なくとも専門的には)、後で個別に編集および処理できるように、異なる信号が異なるトラックに正確に記録されます。

では、音で何をしたいですか?

他の回答が指摘しているように、これは MIDI とはまったく関係ありません。

于 2009-10-27T01:46:43.690 に答える