2

.wav ファイルから HTK によって生成された MFCC (メル周波数ケプストラム係数) ファイルがあります。必要なのは、MFCC からタイム スパンを抽出することです。MFCC ファイルが 90 分のオーディオを表す場合、オーディオの 3 分の MFCC などを取得したいと考えています。

HTK ブックによると、MFCC ファイルはヘッダーとサンプルの連続したシーケンスで構成されています。しかし、サンプルの正確なサイズをバイト単位で決定することは簡単ではないようです。

おそらくファイルのパーサーはありますか?(もちろん、HTK にはありますが、このタスクでバイナリを使用する方法を理解できませんでした。)

または、ファイルを単純に分割できるように、サンプルとヘッダーのサイズを決定する簡単な方法はありますか?

4

1 に答える 1

2

理解した。HTK にはそのためのツールがあります。HCopy は MFCC を MFCC に変換でき、開始と終了のパラメーターを受け入れます。

HCopy -C config0 -s 10e7 -e 11e7 source.mfcc target.mfcc

ソースから 00:10 .. 00:11 をカットします。

config0 には、wav に設定された sourcekind を除いて、オリジナルの mfcc を wav から作成するために使用されたものと同じ構成が含まれている必要があります。

于 2012-04-11T22:16:30.490 に答える