python - Google Speech Recognition API が音声の最初の 2 ～ 3 秒の変換済みテキストのみを返す理由

Question

Google Cloud Console でプロジェクトを作成し、このプロジェクトで Google Speech API を有効にして、資格情報を作成しました。また、Google が推奨する transcribe.py を使用し、

Google によって生成された API キーを使用して、音声ファイル (30 秒) をテキストに正常に変換できますが、最初の 2 ～ 3 秒だけを完全に変換することはできません。私のアカウントは現在無料トライアル中なので、アカウントの種類（無料トライアル）のせいなのか疑問です。

Google からの応答は次のようになります}]}]}

音声ファイルは wav ファイル形式 (ffprobe で出力) ストリーム #0:0: 音声: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz, 1 チャンネル, s16, 256 kb/ s

オーディオファイルが Google ドライブにアップロードされました。リンクはこちら https://drive.google.com/file/d/0B3koIsnLksOLQXhvQ1ljS0dDXzg/view?usp=sharing

上記のプロセス/手順の何が問題なのか知っている人はいますか? または、これは Google 音声認識 API のバグですか?

score 2 · Accepted Answer

Cloud Speech API サービスで Google API Explorer を使用すると、音声ファイルの個別のサンプルを分析することで、次の関連する音声認識結果を分離することができました。

これらの結果は、次の構成を使用して取得されました。

“config”: {
    “encoding”: “LINEAR16”,
    “sampleRate”: 16000,
    “maxAlternatives”: “30”,
}

実際のところ、現在ベータ版の音声 API には既知の問題が存在するため、文字起こしが正しく機能しない可能性があります (アカウントが有料または無料の試用ベースであるかどうかに関係なく)。次のベストプラクティスで説明されているように、この場合、考慮すべき 2 つの問題があります。

音声録音中にバックグラウンドミュージックが再生されているため、転記の精度が低下するほどのバックグラウンドノイズが発生する可能性があります。(Speech API は、ユーザーがアプリケーションのマイクに口述するテキストを書き起こすように設計されていることに注意してください)
さらにアドバイスされているように、音声を複数の人からキャプチャする場合は、音声を分割することをお勧めします。あなたの場合、カエルの音が別の人間の声として検出される可能性があるため、書き起こしの精度にも影響します。

これら 2 つの既知の問題を考慮すると、ノイズを除去し、録音の主人公から発せられた均一な音声のみを処理することが重要です。または、録音を分割して、1 人のキャラクターの声を含む録音の各部分を個別に転記することもできます。

2 に答える 2