0

最近、私とパートナーは、研究用にニューラル ネットワークを使用したコード認識ツールを開発しました。入力には、ピッチ クラス プロファイルの結果を使用しています。

各ピッチ クラスの表現として 12 の入力があります。出力は 5 ノードです。次のような入力に基づいてニューラル ネットワークをトレーニングします。

for chord c major: input: 1 0 0 0 1 0 0 1 0 0 0 0 and output: 1 0 0 0 0.

を使用してテストするc major.wavと、ピッチ クラス プロファイル メソッドの結果からの実際の入力は、良好な結果を示しています。ハ長調の 3 つの基本音は、他の音と比較して支配的ですが、値が小さすぎます。

c: 0.7123345
c#: 0.00024521
d:0.00013312
e: 0.009123
f:0.445023
f#:0.0535852
g:0.000312
g#:0.51023
a:0.0002312
a#:0.1034
b:0.003122
b#:0.000102

手動でチェックすると、c、f、および g が優勢であることがわかりますが、ニューラル ネットワークを使用してチェックすると、結果は期待どおりではありません。これを改善するにはどうすればよいでしょうか?

4

0 に答える 0