3

オーディオ ファイル内の各単語について、おおよそ正確なタイムスタンプを取得しようとしています。また、相互参照ソースとして使用できる音声ファイルと一緒に使用できる元のテキストもあります。これは「オーディオ マイニング」に似ています。ここでは、オーディオとテキストの両方が存在するのに対し、ここでは入力オーディオのみが存在すると考えられます。

理想的には、オープン ソース ソフトウェアを使用してこれを行い、入力としてほとんどの言語を受け入れたいと考えています (たとえば、英語、フランス語、ドイツ語、スペイン語、理想的にはロシア語と北京語)。

さまざまな単語のタイム スタンプのみを照合できるソリューションも受け入れます (たとえば、書き起こしが完全に正確でない場合など)。次に、出力テキストを元のテキストと相互参照して、物事を再調整するのが簡単になります.

4

1 に答える 1

0

私は言語学の研究でこのような仕事をしています。ELAN というプログラムを使用していますが、現在 Mac にインストールされているバージョンよりも新しいバージョン (4.5) があることに気付きました。このソフトウェアは、聴覚障害者の言語での作業を支援するように設計されているため、ビデオとオーディオのフレームをサポートし、文字起こしを正確に調整できます。私が使用しているバージョンは 3.9 で、そのバージョンでは、ある種の単語の自動セグメント化を行っていました。これは、あなたがやりたいことだと思います。ただし、最新バージョンにはその機能が表示されません。おそらく、掘り下げてもまだ残っています。

オーディオとビデオのセグメンテーションこのページから。

もちろん、以前のバージョンが必要な場合は、いつでも ELAN 3.9 を使用できます。ELAN は Java ベースであるため、Mac、Linux、および Windows で動作します (思い出します)。ここにELANへのリンクがあります。言語注釈ソフトウェアは他にもあります。もう 1 つは、非常に優れていますが、習得が難しいものです。それはPRAATと呼ばれます。

これがお役に立てば幸いです。私があなたのニーズを正確に理解していない場合は、お知らせください。回答を改善できるかどうかを確認します. 乾杯!

于 2013-02-07T19:10:50.390 に答える