3

最初は、画像認識と同じくらい簡単だと思いました。

FANNホップフィールドネットワークを作成し、バイナリ変換された画像でトレーニング/フィードする代わりに、バイナリ変換されたサウンドでフィードします。

しかし:

  1. wavをバイナリ文字列に変換する方法(バイトではなくバイナリで必要だと思います-私は正しいですか?)
  2. 連続させる方法とは、マイクからの単語/音の発生をソースとして数えることです。
  3. これを行うのに最適なJavaライブラリは何ですか(SPHINXやその他の音声認識ライブラリではありません-コード言語を独立させたい、またはカスタムサウンドを認識したい-手をたたくなど)

以前は画像認識にFANNを使用していましたが、Encogについては知っていますが、モバイルデバイスに簡単に移植するためのより良いもの(またはより単純な、実際にはEncogの使用方法がわかりません)と望ましいJavaネイティブがあるかもしれません

4

1 に答える 1

0

すでに画像を扱うことができる場合は、おそらくこれが必要なものです: http://code.google.com/p/asperes/

WAV サウンド サンプルを BMP 画像 (スペクトログラム) に変換したり、任意の BMP 画像をサウンド (WAV) に変換したりできます。

ドキュメントからの説明:

Audio Spectrograph and Re-Synthesis (ASPERES) は、サウンド サンプルからイメージ (スペクトログラム) を生成したり、任意のイメージからサウンドを生成したりできる小さなコマンド ライン ユーティリティです。

于 2012-09-22T20:49:54.507 に答える