私は、音声からテキストへの API を使用して mp3 ファイルを人間が読めるテキストに変換することで最高潮に達する、プログラムとライブラリのかなり長いチェーンを構築しようとしています。オンラインでこれを行う API がほとんどないことに驚きました。私が見つけた唯一の動作するものは、Google の非公式の Speech-To-Text API にフックするhttps://github.com/taf2/speech2textプロジェクトの speech2text でした。
これは実際に最初に機能しました。いくつかの手動変換を行い、結果に満足しました。ただし、Java で一連のプロセスを自動化しようとして以来、適切に動作しなくなりました。
編集 - 次のエラー メッセージは、speech2text ではなく、flac 自体から技術的にソースされています。Speech2text ではなく、flac のみを使用してこれらのファイルを変換しようとすると、id3v2 エラー メッセージが表示されるため、このエラーは実際には speech2text とは関係ありません (ただし、speech2text が誤ったタグのソースである可能性があります)。
Java はこれをエラーとして報告します (ProcessBuilder を使用して speech2text を呼び出し、ストリームを出力した後):
/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_inspector.rb:50:in
initialize': undefined method
first' for nil:NilClass (NoMethodError) from /Library/Ruby/Gems/1.8/gems/speech2text -0.3.4/lib/speech/audio_splitter.rb:77:innew' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_splitter.rb:77:in
initialize' fromnew' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:15:in
/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:15:in to_text' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/bin/speech2text:11 from /usr/bin/speech2text:19:in `load' from /usr/bin/speech2text:19
ただし、同じファイルに対してコマンドを手動で実行しようとすると、実際には次のようになります。
エラー: 入力ファイル ./chunk-abortion-test-audio-0.mp3 に ID3v2 タグ /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_splitter.rb:59:in to_text があり
to_flac': failed to convert chunk: ./chunk-abortion-test-audio-0.mp3 with flac ./chunk-abortion-test-audio-0.mp3 (RuntimeError) from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:18:in
ます' fromeach' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:17:in
/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:17:in to_text' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/ bin/speech2text:11 from /usr/bin/speech2text:19:in `load' from /usr/bin/speech2text:19
id3v2 --delete-all
もちろん皮肉なことに、私は実際にMac 端末を使用して id3v2 タグのファイルを消去し
ました。そのため、何かおかしなことが起こっています。
誰が何が起こっているのかを示唆できますか? また、speech2text が 1 年間更新されていないことを考えると、人々が使用している新しい音声からテキストへのソリューションがあるに違いないと感じています。そこで、もっと良いものがあれば教えてください。
乾杯!
編集 - ちなみに、誰かが興味を持っている場合、mp3 ファイルは ffmpeg を使用して .flv ファイルを削除したものです。