mp3 ファイルがあり、Google の音声認識を使用してそのファイルからテキストを取得したいと考えています。ドキュメントや例を見つけることができるアイデアをいただければ幸いです。
1 に答える
開発者が音声をテキストに変換できるようにするGoogle Cloud Speech APIを見てみましょう[...] API は 80 を超える言語とバリアントを認識します [...] 無料アカウントを作成して、限られた量の API リクエストを取得できます。
方法:
最初にgcloud python モジュールとgoogle-api-python-clientモジュールを次のようにインストールする必要があります。
pip install --upgrade gcloud
pip install --upgrade google-api-python-client
次に、Cloud Platform コンソールで [プロジェクト] ページに移動し、新しいプロジェクトを選択または作成します。プロジェクトの課金を有効にする必要がある場合は、Cloud Speech APIを有効にします。
Google Cloud Speech API を有効にした後、[資格情報に移動] ボタンをクリックして、Cloud Speech API の資格情報を設定します。
コードから Cloud Speech API サービスを承認する方法については、「サービス アカウントのセットアップ」を参照してください。
Speech API への認証を可能にするサービス アカウント キー ファイル (JSON 形式) と GOOGLE_APPLICATION_CREDENTIALS 環境変数の両方を取得する必要があります。
すべての作業が完了したら、Google から音声の生ファイルをダウンロードし、 Googleからspeech-discovery_google_rest_v1.jsonもダウンロードします。
以前にダウンロードした JSON ファイルを変更して資格情報キーを設定し、GOOGLE_APPLICATION_CREDENTIALS 環境変数を .json ファイルのフル パスに設定したことを確認します。
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json
また
GCLOUD_PROJECT 環境変数が Google Cloud プロジェクトの ID に設定されていることを確認します。
export GCLOUD_PROJECT=your-project-id
すべてが完了したと仮定すると、以下を含むtutorial.pyファイルを作成できます。
import argparse
import base64
import json
from googleapiclient import discovery
import httplib2
from oauth2client.client import GoogleCredentials
DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
'version={apiVersion}')
def get_speech_service():
credentials = GoogleCredentials.get_application_default().create_scoped(
['https://www.googleapis.com/auth/cloud-platform'])
http = httplib2.Http()
credentials.authorize(http)
return discovery.build(
'speech', 'v1beta1', http=http, discoveryServiceUrl=DISCOVERY_URL)
def main(speech_file):
"""Transcribe the given audio file.
Args:
speech_file: the name of the audio file.
"""
with open(speech_file, 'rb') as speech:
speech_content = base64.b64encode(speech.read())
service = get_speech_service()
service_request = service.speech().syncrecognize(
body={
'config': {
'encoding': 'LINEAR16', # raw 16-bit signed LE samples
'sampleRate': 16000, # 16 khz
'languageCode': 'en-US', # a BCP-47 language tag
},
'audio': {
'content': speech_content.decode('UTF-8')
}
})
response = service_request.execute()
print(json.dumps(response))
if __name__ == '__main__':
parser = argparse.ArgumentParser()
parser.add_argument(
'speech_file', help='Full path of audio file to be recognized')
args = parser.parse_args()
main(args.speech_file)
次に実行します。
python tutorial.py audio.raw