2

私は、音声からテキストへの API を使用して mp3 ファイルを人間が読めるテキストに変換することで最高潮に達する、プログラムとライブラリのかなり長いチェーンを構築しようとしています。オンラインでこれを行う API がほとんどないことに驚きました。私が見つけた唯一の動作するものは、Google の非公式の Speech-To-Text API にフックするhttps://github.com/taf2/speech2textプロジェクトの speech2text でした。

これは実際に最初に機能しました。いくつかの手動変換を行い、結果に満足しました。ただし、Java で一連のプロセスを自動化しようとして以来、適切に動作しなくなりました。

編集 - 次のエラー メッセージは、speech2text ではなく、flac 自体から技術的にソースされています。Speech2text ではなく、flac のみを使用してこれらのファイルを変換しようとすると、id3v2 エラー メッセージが表示されるため、このエラーは実際には speech2text とは関係ありません (ただし、speech2text が誤ったタグのソースである可能性があります)。

Java はこれをエラーとして報告します (ProcessBuilder を使用して speech2text を呼び出し、ストリームを出力した後):

/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_inspector.rb:50:in initialize': undefined methodfirst' for nil:NilClass (NoMethodError) from /Library/Ruby/Gems/1.8/gems/speech2text -0.3.4/lib/speech/audio_splitter.rb:77:in new' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_splitter.rb:77:ininitialize' from new' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:15:in/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:15:in to_text' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/bin/speech2text:11 from /usr/bin/speech2text:19:in `load' from /usr/bin/speech2text:19

ただし、同じファイルに対してコマンドを手動で実行しようとすると、実際には次のようになります。

エラー: 入力ファイル ./chunk-abortion-test-audio-0.mp3 に ID3v2 タグ /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_splitter.rb:59:in to_text がありto_flac': failed to convert chunk: ./chunk-abortion-test-audio-0.mp3 with flac ./chunk-abortion-test-audio-0.mp3 (RuntimeError) from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:18:inます' from each' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:17:in/Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/lib/speech/audio_to_text.rb:17:in to_text' from /Library/Ruby/Gems/1.8/gems/speech2text-0.3.4/ bin/speech2text:11 from /usr/bin/speech2text:19:in `load' from /usr/bin/speech2text:19

id3v2 --delete-allもちろん皮肉なことに、私は実際にMac 端末を使用して id3v2 タグのファイルを消去し ました。そのため、何かおかしなことが起こっています。

誰が何が起こっているのかを示唆できますか? また、speech2text が 1 年間更新されていないことを考えると、人々が使用している新しい音声からテキストへのソリューションがあるに違いないと感じています。そこで、もっと良いものがあれば教えてください。

乾杯!

編集 - ちなみに、誰かが興味を持っている場合、mp3 ファイルは ffmpeg を使用して .flv ファイルを削除したものです。

4

1 に答える 1

0

これは現在、2 つの別個の問題です。ID3v2 の問題は、.mp3 ファイルの使用を回避し、代わりに .wav を使用することによってのみ解決できました。Java の出力はまだ問題なので、新しい質問に移します。

于 2012-03-25T15:46:50.853 に答える