Mac用の転写プログラムであるCapoの作者は、かなり詳細なブログを持っています。エントリ「自動タブに関する注意」には、いくつかの優れたジャンプポイントがあります。
私は2009年半ばに自動文字起こしのさまざまな方法の研究を始めました。これは、このテクノロジーがどれだけ進んでいるか、そしてそれを将来のバージョンのCapoに統合できるかどうかに興味があったためです。
これらの自動転記アルゴリズムはそれぞれ、オーディオデータのある種の中間表現から始まり、それを記号形式(つまり、音符の開始と長さ)に転送します。
ここで、計算コストの高いスペクトル表現(連続ウェーブレット変換(CWT)、一定Q変換(CQT)など)に遭遇しました。これらのスペクトル変換をすべて実装して、論文Iで提示されたアルゴリズムも実装できるようにしました。読んでいた。これは、それらが実際に機能するかどうかのアイデアを私に与えるでしょう。
カポにはいくつかの印象的な技術があります。際立った特徴は、そのメインビューが他のほとんどのオーディオプログラムのような周波数スペクトログラムではないことです。ピアノロールのようにオーディオを表現し、肉眼でノートを表示します。

(出典:supermegaultragroovy.com)
(注:ハードノートバーはユーザーが描いたものです。その下のぼやけたスポットは、Capoが表示するものです。)