android - 独自の音声ファイルからテキストへの音声

Question

おそらくご存じのとおり、音声からテキストへの変換は Android API を使用して非常に簡単に実装できます。API のインテントを呼び出すだけで、テキストが返されます。私の場合は少し異なります。ユーザーから録音され、SD カードに保存されている、事前に録音された 3GPP サウンドファイルがあります。他の音声認識と同じように、それをテキストに書き起こすことができるかどうか知りたいです。Speech-to-Text API では、独自のサウンドファイルをアップロードして処理することはできますか? それともこれは不可能ですか？

score 3 · Accepted Answer

API では許可されていませんが、考えられる回避策については、このブログ投稿とそのコメントを参照してください。また、より良い文字起こしを行うために、ファイルに高品質のオーディオ (少なくとも 16 ビットおよび 16 kHz) が含まれていることを確認してください。

以下も参照してください。

録音されたサウンドクリップを使用したアンドロイドの音声認識?

score 2 · Accepted Answer

音声ファイルから音声をテキストに変換するためにうまく機能するソリューションを手に入れました。ソリューションの動作を示すために作成した単純な Android プロジェクトへのリンクを次に示します。また、アプリを説明するために、プロジェクト内にいくつかの印刷画面を配置しました。

私が使用したアプローチを簡単に説明しようと思います。そのプロジェクトでは、Google Speech API と Flac レコーディングの 2 つの機能を組み合わせました。

Google Speech API は、HTTP 接続を介して呼び出されます。Mike Pultzが API について詳しく説明しています。

「(...) 新しい [Google] API は全二重ストリーミング API です。これが意味することは、実際には 2 つの HTTP 接続を使用するということです。1 つの POST リクエストは、コンテンツを「ライブ」チャンクストリームとしてアップロードします。結果にアクセスするための 2 番目の GET リクエスト。これは、より長いオーディオサンプルやストリーミングオーディオの場合にはるかに理にかなっています。」

ただし、この API が正常に動作するには、FLAC サウンドファイルを受信する必要があります。これで、第 2 部に進みます。Flac レコーディングです。

AudioBoo というオープンソースアプリからいくつかのコードとライブラリを抽出して適応させることで、そのプロジェクトに Flac レコーディングを実装しました。AudioBoo はネイティブコードを使用して、flac 形式の録音と再生を行います。

したがって、flac サウンドを録音して Google Speech API に送信し、テキストを取得して、録音したばかりのサウンドを再生することができます。

私が作成したプロジェクトには、それを機能させるための基本原則があり、特定の状況で改善することができます。別のシナリオで動作させるには、Google Chromium-dev グループの一員として取得される Google Speech API キーを取得する必要があります。そのプロジェクトには、機能していることを示すためだけに 1 つのキーを残しましたが、最終的には削除します。誰かがそれについてさらに情報が必要な場合は、この投稿に 2 つ以上のリンクを配置できないため、お知らせください。

android - 独自の音声ファイルからテキストへの音声

3 に答える 3

Related

Reference