4

アプリに Pocketphinx オフライン音声認識を使用することを考えていますが、ドキュメントが明確ではありません。誰かが次の質問に答えてくれれば、本当に助かります。

  1. setKeywordThreshold(1e-5f) メソッドの役割 (用途) は何ですか。このメソッドで許可される最小値と最大値は何ですか。

  2. さまざまな言語をサポートし、このリンクhttp://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/でいくつかの言語の構築済み音響モデルを見つけたいと考えています。しかし、ドキュメンテーションの遅れにより、どのモデルがどの言語に最適なのか理解できません。次の言語に最適な内蔵音響モデルを教えてください -

    (a)。オーストラリア英語 (b)。アメリカ英語 (c). イギリス英語 (d)。カナダ英語 (e)。ヨーロッパ英語 (f)。インド英語 (g)。アイルランド英語 (h)。ニュージーランド英語 (i)。南アフリカ英語 (j)。ロシア語 (k)。スペイン語 (l)。フランス語 (m)。オランダ語 (n)。ドイツ人

  3. 各言語で 1 から 200 までの数字を認識したいだけです。これを行う最善の方法は何ですか?

  4. 1 から 99 までの数字を認識する digits.gram ファイルを作成しましたが、背景の音声も認識します。たとえば、ボール盤のバックグラウンド ボイスが発生すると、バックグラウンド ボイスとして認識します。特定の数字が話された場合にのみ数字を認識するにはどうすればよいでしょうか?

digits.gram ファイル

#JSGF V1.0;

grammar digits;

<single> = one | two | three | four | five | six | seven | eight | nine ;
<digit> = <single> |
          zero  |
          ten   |
          eleven |
          twelve |
          thirteen |
          fourteen |
          fifteen |
          sixteen |
          seventeen |
          eighteen |
          nineteen |
          twenty |
          thirty |
          forty |
          fifty |
          sixty |
          seventy |
          eighty |
          ninety |
          twenty <single> |
          thirty <single> |
          forty <single> |
          fifty <single> |
          sixty <single> |
          seventy <single> |
          eighty <single> |
          ninety <single> ;
4

1 に答える 1

0

問題 4を解決する最善の方法は、キーワードを追加して認識を開始することです。キーワードがある場合は、ユーザーがシステムの使い方を知っていて、実際のコマンドの前に「こんにちは、Pocketsphinx」と言うだろうと示唆できます。

だから試すことができます:

  • キーワードを使用します。
  • デコーダーによって返される信頼度で出力をフィルター処理します。
  • また、辞書にフォールバックとしていくつかの一般的な単語を追加して、Pocketsphinx が「正しい」リストの代わりにそれらを照合するようにすることもできます。これにより、精度が向上する可能性があります。(ただし、価値がある場合もあります。シナリオを解決するための最良の方法を見つけるために、それを試してみてください)
于 2019-02-26T10:30:42.703 に答える