.wav ファイルから HTK によって生成された MFCC (メル周波数ケプストラム係数) ファイルがあります。必要なのは、MFCC からタイム スパンを抽出することです。MFCC ファイルが 90 分のオーディオを表す場合、オーディオの 3 分の MFCC などを取得したいと考えています。
HTK ブックによると、MFCC ファイルはヘッダーとサンプルの連続したシーケンスで構成されています。しかし、サンプルの正確なサイズをバイト単位で決定することは簡単ではないようです。
おそらくファイルのパーサーはありますか?(もちろん、HTK にはありますが、このタスクでバイナリを使用する方法を理解できませんでした。)
または、ファイルを単純に分割できるように、サンプルとヘッダーのサイズを決定する簡単な方法はありますか?