0

私は、誰かがいつ質問をしたかを知る必要がある、不要な会議で立ち往生している人々のためのアプリに取り組んでいます.

私の計画は次のとおりです。

  1. 会議の音声 (通常はスピーカーから出力されるもの) を音声テキスト変換プログラムにストリーミングします
  2. それを私の名前や質問のイントネーションの上昇を監視するものにストリーミングします
  3. 誰かが私に質問したときに、プログラムを「鳴らす」ようにします。そうすれば、すぐにテキストを読んで答えることができます。

難しいのはステップ(1)です。私が見つけたすべてのスピーチからテキストへのプログラムは、オーディオファイルを入力として受け入れ、スピーカー/ヘッドフォンに送られるチャネルからストリーミングすることはできません. 一方、私が見つけた支援プログラムは、キーボード入力を引き継いでいます。理想的には、ユーザーは会議中に他のアプリに入力することで生産的な作業ができるようになるため、そのようなソリューションは機能しません。

そのため、OS X で使用できる、ステップ(1)を処理するか、上記のほとんどのステップをより適切に実行できるものを探しています。

解決策を調査しましたが、ステップ(1)について何も見つかりません。私が知らない、プログラム全体に対するより創造的な解決策 (ディクテーション用ではない他の支援技術など) がある可能性があるため、他の手順を含めています。

4

2 に答える 2

1

1)アプリ間のオーディオ ルーティングにLoopBackを使用しました。基本的には、あるアプリから別のアプリにオーディオをパイプする仮想ミキサーです。オーディオ入力デバイスとして表示され、モニタリングも可能です。そのため、別のアプリにストリーミングするだけでなく、聞くこともできます。

2 と 3) 私の専門分野ではありませんが、研究を開始するために (Nikolay が言ったように) Google API を調査するでしょう。

于 2017-01-05T12:30:29.497 に答える
1

Google のストリーミング APIなど、多くの API を使用できますが、完全に無料というわけではありません。

精度の低下を許容できる場合は、CMUSphinxなどのオープン ソース ソフトウェアを使用できます。

問題は、voip ソフトウェアから音声ストリームを取得する方法でもあり、自分でハックする必要があります。または、スピーカーで再生されているものを再録音する必要があります。これは常に良い考えではありません。

于 2017-01-04T20:31:17.943 に答える