問題タブ [dictation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
109 参照

keyboard - iOS8: ビューの制約を調整するとディクテーション キーボードが消える

制約を使用して、キーボードが表示される直前にビューを調整します。調整は UIKeyboardWillShowNotification 通知で行われます。

問題は、ユーザーが「ディクテーション」キーボードに切り替えると、キーボードが表示され、すぐに消えることです。この問題は、制約 (self.gapViewConstraint.constant = height) の調整の結果であり、iOS8 でのみ発生するようです (iOS8 にテキスト認識が追加されました)。

制約を取り除かずにそれを解決する方法はありますか?

0 投票する
1 に答える
1113 参照

objective-c - Siri ディクテーションは UITextView:shouldChangeTextInRange デリゲートをバイパスします

(BOOL)textView:(UITextView *)textView shouldChangeTextInRange:(NSRange)range replacementText:(NSString *)へのすべての文字入力に対してリアルタイムの正規表現検証を実行するために使用しますUITextView

これはうまく機能し、無効な文字を含む可能性のある貼り付けられたテキストも処理します。

しかし、Siri はそのようなことを気にかけないようで(void)textViewDidChange:(UITextView *)theTextView、デリゲートをバイパスし、shouldChangeTextInRange検証チェックを回避して、そのディクテーションを に直接ダンプします。

これはセキュリティ上の欠陥のように思え、他のすべての入力チャネルがたどる API フローを壊します。

Siri Dictation を呼び出しに対応させる方法について何か考えはありshouldChangeTextInRangeますか?

0 投票する
1 に答える
274 参照

c# - .NET 定義済みテキストの音声認識

私は、ユーザーが事前定義されたテキストを読み上げ、音声認識エンジンを使用して彼の発言のトランスクリプトを作成するアプリケーションを開発しています。次に、結果を定義済みのテキストと比較して、彼が読んでいる文またはテキストの一部を見つけます。

Nuance NDev を音声認識エンジンとして使用していましたが、現在はコストがかかりすぎるため、別の代替手段を探しています。

そこで、.NET 音声認識エンジンを試してみましたが、これを実現する方法を見つけることができませんでした。

私のテストから:

  • 口述文法は、ユーザーが発するすべての単語を翻訳するので優れていますが、結果は非常に混沌としていて、一致するものを見つけることはほとんど不可能です。

  • GrammarBuilder と Choises クラスの組み合わせは、コマンド => アクション タイプのものに似ており、ユーザーが言うすべての単語を翻訳するわけではなく、特定の 1 つの単語/コマンドを検索して出力するだけです。

だから私が疑問に思っていたのは、口述のような動作で文法を取得する方法があるかどうかですが、定義済みのテキスト内のすべての単語のように、単語のサブセットのみを使用するか、認識エンジンを支援するために単語/文を設定できるようにする方法があるかどうかです。 .

たとえば、エンジンにこの事前定義されたテキストを与える場合:

ある朝、グレゴール・ザムザが厄介な夢から覚めたとき、彼は自分のベッドで自分が恐ろしい害獣に変身していることに気付きました。アーチによって硬い部分に分けられます。

このテキストからのみ単語を返すことができます。そのため、認識がより簡単かつ正確になります。

これまたは他の代替手段を実現する方法について何かアイデアがあれば、私はすべて聞いています。唯一の制限は、英語フランス語をサポートする必要があることです。

ありがとう。

0 投票する
0 に答える
282 参照

speech-recognition - 継続的な音声認識のための OS X Yosemite (10.10) API

OSX には現在、いくつかのバージョンで連続音声認識が組み込まれています。

今はとても良いです。

OSX 10.10 には、この連続音声認識エンジン用の API がありますか?

グーグルは、2009年頃にはN​​SSpeechRecogniser(OSXで同等のMS SAPI sdk)しかなかったと教えてくれます

これがまだ当てはまるかどうか、誰でも確認できますか?

Leap コントローラーと音声入力を組み合わせた独自の統合 UI の構築を検討しているため、質問しています。

OSX のエンジンを使用できさえすれば、これは素晴らしいことです。そうでなければ、他に良い/実行可能な選択肢はないと思います。

0 投票する
1 に答える
1064 参照

ios - UITextView でディクテーションがいつ終了したかを知る

ディクテーションがいつ終了したかを知りたいです (理想的には、ディクテーションがいつ開始されたかも)。

UIViewControllerを含むMyは、プロトコルにUITextView準拠しています。UITextInputDelegate

それを機能させるには、にサブスクライブする必要がありましたUITextInputCurrentInputModeDidChangeNotification

そこにデリゲートを追加します(viewDidLoad()に追加するだけでは機能しませんでした)

口述の開始と停止で、UITextInput は必要なデリゲート メソッドを正しく呼び出すようになりました。

ただし、呼び出されないのは

なんで?ディクテーションが終了したときに通知を受け取る/メソッドを呼び出すにはどうすればよいですか?

0 投票する
0 に答える
776 参照

ios - UITextView でディクテーションを使用しているときにアプリがクラッシュする

UITextView でディクテーションを使用しているときに、アプリがクラッシュします。キーボードでディクテーション機能を使用しているときに、テキストが自動保存され、同じ理由でアプリケーションがクラッシュします。通常のシナリオ:

ユーザーがディクテーション モードでキーボードを使用してテキストを入力すると、テキストは 2 秒後に自動保存されます。

現在のシナリオ

ユーザーがディクテーション モードで長い音声テキストを試している間、テキストは自動保存され、その間にアプリケーション自体がクラッシュします。

スタックトレースを見つけてください

0 投票する
2 に答える
509 参照

ios - ディクテーションのみを行う WatchKit オプション?

私が使う:

これは、Apple によるテキスト入力の例です。ただし、私のアプリでは、ユーザーがテキストを口述するオプションのみを使用できるようにしたいと考えています。配列を nil に設定すると、口述ボタンは表示されませんが、配列をそのままにしておくと、口述ボタンが再び表示されます。ディクテーションのみでテキスト入力を行う方法はありますか?

更新: Apple には、ユーザーを直接ディクテーションに送る場合は、応答を提供せずに直接ディクテーションに送信するように指示する文書があります。initialPhrases が nil のときに何も表示されない理由は、シミュレーターの制限によるものであると収集するのは正しいですか?

0 投票する
1 に答える
1063 参照

macos - プログラムでディクテーションを開始する方法は?

マイクのアイコンをアプリに追加して、ディクテーションを開始したいと考えています。Swiftでプログラムでディクテーションを開始する方法はありますか?? 編集メニューを解析して適切なメニュー項目を取得する以外は?

私はこの回避策を作成しましたが、動作しますが...:

0 投票する
1 に答える
59 参照

audio - リアルタイム サウンド ルーティング...別のサウンドでサウンドをトリガーする

コンピューターから個々のオーディオ サンプルを認識し、それらを再ルーティングして、ライブラリから WAV ファイルをトリガーできるプログラムを探しています。私のプロジェクトでは、遅延が望ましい結果にならないため、リアルタイムである必要があります。単語を認識してファイルを開くトリガーとなるディクテーション ソフトウェアを使用してみましたが、それは私が行きたい方向ですが、単語の代わりに音声にしたいと思っており、それはリアルタイムで行われます。どこに行けばいいのかわからず、ガイダンスを探しているだけです。私が何をすべきかについて何か提案はありますか?