これはプログラミングに関する非常に具体的な質問ではありませんが、私のガールフレンド (ビデオ編集者) を 50% の反復作業から解放する方法を探しています。革新的なアドバイスをお寄せいただきありがとうございます。
彼女はkinetics のタイポグラフィに取り組んでいます。舞台裏では、実際には非常に反復的な 2 つのステップがあります。1. レイアウトに作品を配置し、2. 単語 (下部の赤いトラック) を音声トラックに合わせます。次に、ビデオ全体は基本的にこれら2つのステップの組み合わせです... 何度も何度も。
現在、彼女は音声を劇的に遅くして、単語の開始時刻を単語が音声トラックに存在する時点に手動で一致させています。
私が欲しいもの:
音声認識を実行できる成熟したツール (Python/R インターフェイス) はありますか。音声ファイル (mp3/wmv) があると、その音声ファイルの内容を含むテキスト ファイルが生成されます。
単語を音声に現れる時点と一致させることは可能でしょうか...したがって、この場合、pythonスクリプトの出力は次のようになります。
認識開始 100ms 110ms 120ms 135ms ...
Youtubeの機能に似ていcaption
ますが、単一の単語ベースです...完璧な解決策がないことはわかっていますが、この退屈な旅の一部を実用的に解決できるように、アドバイスや提案をいただければ幸いです。