オーディオ ファイル内の各単語について、おおよそ正確なタイムスタンプを取得しようとしています。また、相互参照ソースとして使用できる音声ファイルと一緒に使用できる元のテキストもあります。これは「オーディオ マイニング」に似ています。ここでは、オーディオとテキストの両方が存在するのに対し、ここでは入力オーディオのみが存在すると考えられます。
理想的には、オープン ソース ソフトウェアを使用してこれを行い、入力としてほとんどの言語を受け入れたいと考えています (たとえば、英語、フランス語、ドイツ語、スペイン語、理想的にはロシア語と北京語)。
さまざまな単語のタイム スタンプのみを照合できるソリューションも受け入れます (たとえば、書き起こしが完全に正確でない場合など)。次に、出力テキストを元のテキストと相互参照して、物事を再調整するのが簡単になります.