0

アプリでOpenEarsを使用して、単語や文章の認識を実行しています。オフライン音声認識の基本チュートリアルに従い、Swift に移植しました。設定手順はこちら

self.openEarsEventsObserver = OEEventsObserver()
self.openEarsEventsObserver.delegate = self
let lmGenerator: OELanguageModelGenerator = OELanguageModelGenerator()
addWords()
let name = "LanguageModelFileStarSaver"
lmGenerator.generateLanguageModelFromArray(words, withFilesNamed: name, forAcousticModelAtPath: OEAcousticModel.pathToModel("AcousticModelEnglish"))
lmPath = lmGenerator.pathToSuccessfullyGeneratedLanguageModelWithRequestedName(name)
dicPath = lmGenerator.pathToSuccessfullyGeneratedDictionaryWithRequestedName(name)

この認識は、静かな部屋で単語と文全体の両方でうまく機能します (ヒット率は 90% だと思います)。しかし、バックグラウンドノイズが少ない静かなパブで試してみると、アプリは単語だけでも認識に深刻な問題がありました。バックグラウンド ノイズがある場合に音声認識を改善する方法はありますか?

4

2 に答える 2

1

バックグラウンド ノイズが多かれ少なかれ均一である (つまり、規則的なパターンを持っている) 場合は、音響モデルの適応を試すことができます。それ以外の場合は、カクテル パーティー効果と呼ばれることもある未解決の問題であり、DNN を使用して部分的に解決できます。

于 2016-02-22T19:46:45.417 に答える