私は Sphinx 4 が初めてで、単純な数字認識アプリケーションを作成しようとしています。テスト用に、短いポーズで発音される 3 桁の wav のセット (one_five_nine.wav など) があります。問題は、最初の数字が見つかった後にファイルの認識が停止することです。そのため、one_five_nine.wav の出力として「1」しかありません。
これが私のフロントエンド設定です
<component name="epFrontEnd16k" type="edu.cmu.sphinx.frontend.FrontEnd">
<propertylist name="pipeline">
<item>audioFileDataSource</item>
<item>dataBlocker </item>
<item>speechClassifier </item>
<item>speechMarker </item>
<item>nonSpeechDataFilter </item>
<item>preemphasizer </item>
<item>windower </item>
<item>fft </item>
<item>melFilterBankFor16k</item>
<item>dct </item>
<item>liveCMN </item>
<item>featureExtraction </item>
</propertylist>
</component>
とコード
Recognizer recognizer = (Recognizer) cm.lookup("recognizer");
recognizer.allocate();
AudioFileDataSource dataSource = (AudioFileDataSource) cm.lookup("audioFileDataSource");
File folder = new File(testDataSetDirectory);
for (final File fileEntry : folder.listFiles()) {
// retrive URL
URL audioURL = null;
try {
audioURL = fileEntry.toURL();
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
// configure the audio input for the recognizer
dataSource.setAudioFile(audioURL, null);
Result result = recognizer.recognize();
String recognizedText = result != null ? result.getBestFinalResultNoFiller() : "null";
// print
System.out.println(fileEntry.getName() + ":\t" + recognizedText);
}
ご協力ありがとう御座います。