speech-to-text - インタビューを書き起こすための Google Cloud Speech API の設定

翻译自：https://stackoverflow.com/questions/39178141 2016-08-27T06:24:00.567

329 次

テキストに書き起こす必要があるドキュメンタリーのビデオインタビューに関連する 100 時間以上の音声を持っています。うまくいけば、30 秒ごとに何らかのタイムコードマーカーを付けて、ビデオを編集中のテキストと簡単に一致させることができます。スイート。

ファイルは BWAV 24 ビット 96khz および WAV 16 ビット 48khz で、20 分から 2 時間続きます。

この種のアクティビティを実行するには、VM でどのような種類のリソースをセットアップする必要がありますか? かなり計算量が多いため、VM には 32 個のコアとかなりの量のメモリが必要になると思われますが、リアルタイムの応答は必要ないため、優先度が低く、ファイルの処理に数時間かかる場合でも問題ありません。私の予算はごくわずかです。$300 は、すべてのファイルに対して余裕のある最高額です (これが、これらのファイルを $75+/時間でトランスクリプションサービスに送信しない理由の 1 つです)。

すでに Cloud Platform アカウントを持っていますが、使用したことはありません。誰かがすでに同様のことを行っていて、私に助けを与えることができる場合、私がもがき回しても意味がありません。

speech-to-text - インタビューを書き起こすための Google Cloud Speech API の設定

0 に答える 0

Related

Reference