リクエストを行うことで、Google の音声認識 API を使用して音声ファイル (WAV、MP3 など) の書き起こしを取得できます。http://www.google.com/speech-api/v2/recognize?...
例: WAV ファイルで「 1 2 3 フォー ファイブ」と言いました。Google API は私にこれを与えます:
{
u'alternative':
[
{u'transcript': u'12345'},
{u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}
],
u'final': True
}
質問: 各単語が発声された時間 (秒単位) を取得することは可能ですか?
私の例では:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
つまり、「1」という単語は 00:00:00.23 から 00:00:00.80 の間に発声され、
「2」という単語は 00:00:01.03 から 00:00:01.45 (秒単位) の間に発声されました。
PS: 英語以外の言語、特にフランス語をサポートする API を探しています。