問題タブ [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 数値のEditTextで音声入力を有効にする方法は?
数値入力用に構成された EditText コントロールで音声入力を受け入れる Android の機能を活用したいと考えています。コントロールがフォーカスされたときに数値キーボードがポップアップするようにしたいと思います。次のxmlを使用しました。
これにより、数字と記号のキーボードが期待どおりに表示されますが、音声入力ボタンはありません。キーボードを英数字キーに切り替えると、音声入力ボタンは表示されるのですが、無効になっています。
android:numeric="decimal" 属性を削除すると、通常の abc キーボードが表示され、音声が有効になり、「1 82 ポイント 6 6」のような数字を話すと機能し、編集テキスト ボックスに 182.66 が表示されます。
「小数のみ」の音声入力を有効にする方法を高低で検索しました。音声入力に関係する EditText または TextView の属性を見つけることができませんでした。
誰でも助けることができますか?私は音声認識インテントを使用したくありません。回避できるのであれば、自分ですべてを行う必要があります (ただし、それは楽しい学習プロジェクトになります!)
speech-recognition - テキストから Google の音声操作を呼び出す - たとえば、独自の音声操作アプリを作成する
Google で音声認識を使用してユーザーの音声入力をテキストとして取得するアプリケーションがあります。これはうまくいきます。問題ありません。テキストが表示されます。
TEXT STRING を送信して、Google の音声アクションと同じロジック/エンジンで解析し、AndroidOS に正しいアクションを実行させることはできますか?
または、ユーザーに Google 音声アクションを求めるインテントを開始します - スペックはそのまま実行されます (例: listen to...) が、Google 音声アクションによって指定された場所と一致するものがない場合、結果とともにアプリにブロードキャストされますオーバーフローとして処理するテキスト。
.net - Wav ファイルの音声からテキストへ
Voice to text を行うスクリプトまたは .Net プロジェクトで使用できるライブラリはありますか?
私は、多数の顧客用の音声プロンプトでいっぱいのディレクトリと、各顧客の下の複数のアカウントを持っています。人間の介入なしで、できるだけ多くのテキストを取得できるようにしたいと考えています。
Dragon Dictate で遊んだことがありますが、あまりにも手動です。何かをスクリプト化できる必要があります。
android - エミュレーターでの音声認識:インテントを処理するアクティビティが見つかりません
エミュレータで音声認識を使用してコードをテキスト化する方法を知りたいです。私のコードは実際のデバイスでは機能しますが、エミュレーターでは機能しません。エラーは言った:
私に何ができる?
android - 音声認識、アンドロイドの不明なエラーの問題
Androidで音声を使ってブラウザコントロールアプリを作ろうとしています。私はRecognizerIntent.ACTION_RECOGNIZE_SPEECH
音声を認識するために意図を使用しています。通常は機能しますが、音声認識ポップアップが開き、「不明な問題」が発生し、WebView が URL を読み込まず、古い URL のままになることがあります。
これが私のコードです:
アイデアをありがとう。よろしくお願いします。
java - 英語版の voxforge モデルを使用したテキストへの音声変換に CMU Sphinx 4 を使用する方法
英語の voxforge モデルで sphinx4 または pocketphinx を使用する方法を理解しようとしていますが、うまくいきません。ドキュメント ページ (このようなhttp://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.htmlなど)を読み込もうとしましたが、役に立ちません。
私が欲しいのは、使用するモデルとソースとして使用するオーディオ ファイルを指定し、実行可能ファイルを印刷して、録音の声が何を言っているのかを推測できる実行可能ファイルです。
私はいくつかの運が良かった: pocketphinx_continuous -infile recording.wav 2> /dev/null
しかし、完全な音声ファイルが書き起こされる前に中止され、デフォルトのモデルでは、音声から読み取り可能なテキストを作成するための単語がほとんどありません。
私は sphinx4 ソース パッケージのデモをコンパイルしてテストしましたが、すべての例は単語が少ないようで、私にとって役立つには voxforge のようなモデルが必要です。
どうすればこれを設定できますか?
python - Dragon NaturallySpeaking からのすべての入力を Python にリダイレクトしますか? (Natlink を使用)
私は現在、Dragon NaturallySpeaking (Natlink を使用) から入力を受け取り、それを処理し、音声出力を返す AI プログラムを作成しています。Dragon からのすべての入力をキャプチャしてパーサーに送信する Receiver GrammarBase を思いつくことができました。
このコードは期待どおりに機能しますが、いくつかの問題があります。
Dragon は入力を処理してからプログラムに送信します。たとえば、「Open Google Chrome.」と言うと、Google Chrome が開き、入力が Python に送信されます。最初に処理せずに入力を Python に送信する方法はありますか?
waitForSpeech() を呼び出すと、Python インタープリターが入力を待機していることを示すメッセージ ボックスが表示されます。(美学と利便性のために) メッセージ ボックスが表示されないようにすることはできますか? 代わりに、ユーザーからの大幅な一時停止の後、音声収集プロセスを終了しますか?
ありがとうございました!
android - Android 4.0 での連続音声認識へのアクセス
Android アプリケーションで連続音声入力を機能させようとしています。組み込みのSpeechRecognizer
インテントを使用してみましたが、単語を処理する前にユーザーが話し終えるのを待ちます。これは私には十分ではありません。ユーザーがまだ話している間に単語を処理するデバイスが必要です。
これは現在 Ice Cream Sandwich でサポートされていると読みました。ただし、この機能にアクセスできる API は見つかりませんでした。これが今どのように機能するか知っている人はいますか?
ご協力いただきありがとうございます!
android - Android:オフラインでの音声認識と音声認識
オフラインのAndroidアプリケーションの1つで立ち往生しています。そこでは、オフライン音声認識と音声音声APIが必要です。
オフライン音声テキスト認識および音声認識に取り組んだことがある場合は、ご意見やご意見をお聞かせください。