問題タブ [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-to-text - すべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか?
現在の技術のすべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか? マイクを使ってコンピューターの前に座っている人を意味するのではなく、事前に録音されたオーディオ ファイルを入力することを意味します。
つまり、30 分の音声録音がある場合、文字起こしには常に 30 分かかりますか?
そこにはさまざまなアプローチがありますか?
audio - 音声をテキストに変換するにはどうすればよいですか?
どうすれば MP3 を取り、音声をテキストに変換できますか?
私は、会議や会議から録音されたメモをいくつか持っています (録音には私の声が 1 つだけ含まれています)。単純に手で書き写すよりも、音声テキスト ツールを使用してテキストに変換する方が簡単で、知的に興味深いと思いました。特にアスタリスクとポッドキャストを使用した VoIP アプリケーション向けのテクノロジが存在することは知っていますが、それらはどのようなもので、どのように使用すればよいのでしょうか?
iphone - iPhone アプリ › 音声認識を追加しますか?
音声認識を使ったアプリを作りたいです。Google などの大企業がこの機能を実装しているのを見てきましたが、スタートアップ レベルで実装することに興味があります。誰かがこれを調べましたか?これを行うためのツールはありますか?
speech-to-text - 自動化された方法で WMA/MP3 オーディオを書き起こしますか?
WMA 形式のスピーチ オーディオがたくさんあるので、それを機械で文字起こししたいと考えています。文字起こしが 100% 正確でなくても、一部のオーディオの「インデックス」としてかなり役立つと思います。 . これを実現するためのコードを書きたいのですが、Microsoft の Speech API は役に立ちますか? 私のためにこれを行うことができるアプリはすでにありますか?
iphone - API を介した音声からテキストへの会話
iPhone アプリケーション用に音声をテキストに変換するための API を無料 (非常に優れています) または有料で提案できる人はいますか?
ありがとう、アーリアン
speech-recognition - 音韻レベルで音声をテキストに出力するソフトウェアはありますか?
オーディオファイルを取得して音韻(IPA)テキストを出力できるソフトウェアはありますか?
私はそこにあるソフトウェアの多くがそれを言語に直接導くことを理解していますが、「教えることができる」ものはありますか?
c# - C#: System.Speech 名前空間を使用して、WAV ファイルをテキストに (音声からテキストに) 書き起こす
.NET Speech 名前空間クラスを使用して、WAVファイルのオーディオをテキスト形式に変換し、画面に表示したり、ファイルに保存したりするにはどうすればよいですか?
チュートリアルのサンプルを探しています。
アップデート
ここでコードサンプルを見つけました。しかし、試してみると、間違った結果が得られます。以下は、私が採用した VB コードのサンプルです。(実際には、vb/c# のいずれかである限り、言語は気にしません...)。それは私に適切な結果を与えていません。正しい文法、つまり録音で期待される単語を入力すれば、そのテキスト出力が得られるはずです。最初に、呼び出しにあるサンプル単語を試しました。時々、その (1) 単語だけを出力し、他には何も出力しませんでした。それから、録音ではまったく予期しない言葉を試してみました...残念ながら、それも印刷されました... :(
UPDATE(11月28日以降)
デフォルトの文法をロードする方法を見つけました。次のようになります。
ここにはまだ問題があります。認識は正確ではありません。出力はゴミです。6 分のファイルの場合、おそらく音声ファイルとはまったく関係のない 5 ~ 6 語のテキストが生成されます。
algorithm - 訓練されていない音声からテキストへのコンバーターを作成するにはどうすればよいですか?
私は幼い頃から重度から重度の難聴を患っていますが、幸いなことに普通の人のように話すことができます。読唇術をしても音声認識能力が低下しているため、口頭でのコミュニケーションは常に困難でした。ボード、パワーポイントのスライド、本、インターネットを読むだけで、学校や大学を卒業しました。私は現在のソフトウェアエンジニアリングの仕事でかなりうまくやっていますが、最近、状況を改善するためにいくらかの努力をしなければならないと感じています。
字幕は、テレビで映画や番組を理解するためのこの国での私の命の恩人であり、私は過去7年間だけこれを楽しんでいます(私は現在31歳です)。
見知らぬ人も含めて、誰かと話すときはいつでも、実生活で字幕を見ることができる必要性を強く感じています。訓練されていない音声からテキストへのコンバーターを開発したいのですが、最初は正確な単語を綴る必要はなく、音節/音声学の手がかりだけでも問題ありません。
私はしばらくの間これをグーグルで検索しましたが、ほとんどの結果は、テキスト読み上げか、コンピューターに音声コマンドを与えるための音声認識の半ば焼きの試みのいずれかです。このプロジェクトを始める方法について、いくつかの指針を知りたいと思います。具体的には、オーディオファイルの処理方法や、おおよその音声をできるだけ速く取得するためにどのような処理を行う必要があるかなどの手順が必要です。
speech-recognition - 組み込みアプリケーション用の音声認識エンジン
WindowsCE音声対応アプリケーションを開発するために利用可能な音声認識エンジンとSDKを調査しようとしています。私はニュアンスに出くわしましたが、他には何も見えません。可能であれば.NetSDKを使用したいと思いますが、ほとんどはC /C++だと思います。何か提案をいただければ幸いです。ありがとう。
speech-recognition - 認識される前に入力音声を取得する方法
認識される前に入力音声を取得する方法。たとえば、「ヘル」と言うと、辞書に見つからないか、別の単語だと思います。私はただ「ヘル」を手に入れたいだけです