Android アプリケーションを制御するために使用される特定のコマンドを認識するために、すでに HTK (Hidden Markov Model Tool Kit) を使用していますが、この場合、音声データをサーバーに渡す必要があり、時間がかかる可能性があります。
この遅延を防ぐために、ポケットフィンクスを使用して Android アプリケーションでローカルに音声データを認識し、その音声をサーバーに渡す必要がないようにすることを考えています。
これが良い考えだとすれば、ポケットフィンクスをゼロから学ぶのは簡単ですか? また、両方の技術 (サーバーベースとローカルの音声認識) の長所と短所は何ですか? また、どちらが優れていますか?