単語または文の各音素からの開始フレーム、終了フレーム、およびセグメンテーション スコアが必要なシステムを開発しています。私は Sphinx-3 コマンド sphinx3_align を使用して、次の結果を取得しました (例):
SFrm EFrm SegAScr Phone
0 21 -67327 SIL
22 37 -236740 AH SIL K b
38 41 -61028 K AH S i
42 56 -82368 S K EH i
57 67 -106366 EH S P i
68 86 -101908 P EH T i
87 106 -89226 T P SIL e
107 113 -82281 SIL
Total score: -827244
問題は、このコマンドを何度も実行する必要があり、サーバーで多くのメモリを消費していることです。制御ファイルに多くの入力を渡そうとしましたが、処理に時間がかかり、アプリケーションの応答時間を長くすることができません。
そのため、応答時間を維持しながら消費するメモリを減らすために、同じシステムを Sphinx-4 に実装しようとしています。このようにして、アプリケーションを実行するたびにアンロードすることなく、アライメントの直後に結果を返すことができます。
私の疑問は、Sphinx-4 で上記の出力 (sphinx3_align と同様) を持つことができるかどうかです。