私は音声をテキストに変換する必要があるラジオアプリケーションに取り組んでいます。そのために、サードパーティの API を使用しています。より良い結果を得るために、2 つの API を同時に実行し、出力を比較したいと考えています。これは、ユーザーが記録ボタンをクリックしたときに発生するはずです。
GCD を使用してこれを実行できることはわかっていますが、これをどのように達成できるかについて正確なアイデアを得ることはできません。
提案が必要です。
ありがとうございました。
私は音声をテキストに変換する必要があるラジオアプリケーションに取り組んでいます。そのために、サードパーティの API を使用しています。より良い結果を得るために、2 つの API を同時に実行し、出力を比較したいと考えています。これは、ユーザーが記録ボタンをクリックしたときに発生するはずです。
GCD を使用してこれを実行できることはわかっていますが、これをどのように達成できるかについて正確なアイデアを得ることはできません。
提案が必要です。
ありがとうございました。
簡単な答えは、Speech-to-Textタスクごとに1つずつ、2つのGCDキューを作成することです。各ブロック内で、同じ入力データを使用して2つの異なるAPIを呼び出します。次に、結果を待つか、完了時にブロックがコールバックステータスメソッドを呼び出すようにします。
音声エンジンがバックグラウンドスレッドで安全に実行できることを確認する必要があることに注意してください。
最初にオーディオを録音してから、データを2つの異なるエンジンに送信して処理する場合、これはかなり簡単です。しかし、ユーザーが[録音]をクリックするとすぐにオーディオの処理を開始したいようです。その場合、リアルタイムでデータをフィードする方法については、APIに大きく依存します。それらを別々のスレッドで明示的に実行し、入ってくるときにデータをフィードしたい場合があります。