私はスピーチをテキストに変換するために使用されます。私はスピーチSDKを使用し、複数の言語をサポートする高速応答を提供するために他のSdkが利用可能な場合、応答が遅くなります...
例がある場合や、Provide me 以外の Sdk を使用している場合は...
前もって感謝します....
Check out this voice recognition and text-to-speech library 'OpenEars'.
私は人工知能の専門家ではありませんが、画像認識では、AI が文字を読み取ることを学習できるニューラル ネットワークのようなものを使用します。通常は逆方向に伝播するニューラル ネットワークに基づいています。
音声認識は画像認識のようなものだと思いますが、これらの技術は独立しているべきです。
私が考えることができるインターネット接続が必要な唯一の理由は、SDK の開発者が AI の結果をサーバーに収集して、AI テクノロジがこれらの新しい結果から学習し、よりスマートになることを望んでいるためです。 Apple の Siri が動作します。
データのプールが大きい AI は、データのプールが小さい AI よりも速く学習する可能性が非常に高くなります (アプリがデバイス上でのみ動作する場合、Apple のような国際的なアクセントではなく、たとえばあなたのアクセントのみを理解します)。シリ)
あなたが使用している Speech SDK は、すべての結果がサーバーに保存されるという点で、このパスをたどっているようです。
音声認識をオフラインで動作させたい場合は、Neural Networks AI プログラミングを学習して独自に実装するか、インターネット接続を使用しない別のライブラリを見つける必要があるでしょう。