CMU Sphinx 4 を使用して認識を実行したい大量のファイルがあります。Sphinx には次の形式が必要です。
- 16kHz
- 16ビット
- 単核症
- リトルエンディアン
私のファイルは、44100 khz、32 ビットのステレオ mp3 ファイルのようなものです。Tritonus を使用してから、その更新版 JavaZoom を使用して、bakuzenのコードを使用して変換してみました。ただし、AudioSystem.getAudioInputStream(File)
がスローUnsupportedAudioFileException
され、理由がわからなかったので、先に進みました。
今、私はffmpegを試しています。このコマンドffmpeg -i input.mp3 -ac 1 -ab 16 -ar 16000 output.wav
は (リトル エンディアンを除いて) トリックを実行するように見えますが、Audacity で出力を確認すると、まだ「32 ビット フロート」とラベル付けされています。このサイトで見つけたコマンドも を使用し-acodec pcm_s16le
ており、その名前から 16 ビットのリトル エンディアンを出力しているようです。ただし、Audacity はまだ出力が32 bit float
.
オーディオ ファイルを CMU Sphinx 4 で必要な形式に変換する方法を誰か教えてもらえますか?