3

シリアル化とは、入力の値が離散的な時間間隔で取得され、ベクトルのサイズも事前にわからないことを意味ます。通常、ニューラル ネットワークは、固定サイズの並列入力ニューロンと固定サイズの並列出力ニューロンを使用します。

シリアル化された実装を音声認識で使用できます。この場合、ネットワークに時系列の波形を供給し、出力側で音素を取得できます。

誰かが既存の実装を指摘できれば素晴らしいことです。

4

2 に答える 2

3

シーケンス データをモデル化するためのニューラル ネットワークには、いくつかの種類があります。これらのモデルのほとんどは、リカレント ニューラル ネットワークとして知られる等価クラスに適合すると言えます。リカレント ニューラル ネットワークは、通常、接続グラフにサイクルが含まれるニューラル ネットワーク モデルです。接続グラフのサイクルは通常、ネットワークの過去の「状態」のいくつかの側面をモデル化するために利用できます。たとえば、Elman/Jordan ネット、Echo State Networksなど、さまざまな戦略が開発されています。さまざまな方法でこの状態情報を利用できます。

歴史的に、再帰型ネットを効果的にトレーニングすることは非常に困難でした。ニューラル ネットワークの 2 次最適化ツールに関する最近の多くの研究と、ディープ ニューラル ネットワーク コミュニティの研究のおかげで、現実世界のタスクのモデル化に有望なリカレント ネットワークの最近の例がいくつか開発されました。私の意見では、このようなネットワークの最新の最も優れた例の 1 つは、Ilya Sutskever の「再帰型ニューラル ネットワークを使用したテキストの生成」(ICML 2011) であり、再帰型ネットが非常にコンパクトで長距離の n-gram 文字モデルとして使用されています。 . (リンク先のホームページで RNN デモを試してみてください。楽しいです。)

私の知る限り、リカレント ネットはまだ音声 -> 音素モデリングにうまく適用されていませんが、Alex Gravesは最近のいくつかの論文でこのタスクについて具体的に言及しています。(実際、彼はこのトピックに関する 2013 年の ICASSP 論文を持っているようです。)

于 2013-10-18T05:07:25.597 に答える
3

構造としての単純なニューラル ネットワークは、時系列の認識にそれを適用することが非現実的である理由である、時間スケールの変形全体にわたって不変ではありません。時系列を認識するために、通常は汎用通信モデル (HMM) が使用されます。NN を HMM と一緒に使用して、個々の音声フレームを分類できます。このような HMM-ANN 構成では、オーディオがフレームに分割され、フレーム スライスが ANN に渡されて音素確率が計算されます。次に、HMM による動的検索を使用して確率シーケンス全体が分析され、最適な一致が得られます。

HMM-ANN システムは通常、より堅牢な HMM-GMM システムからの初期化を必要とするため、スタンドアロンの HMM-ANN 実装はありません。通常、それらは音声認識ツールキット全体の一部です。人気のあるツールキットの中で、 Kaldiには HMM-ANN や HMM-DNN (ディープ ニューラル ネットワーク) の実装があります。

時系列を分類するように設計されたニューラル ネットワークもあります。リカレント ニューラル ネットワークは、音声の分類に使用できます。この例は、Kerasなど、RNN をサポートする任意のツールキットで作成できます。再帰型ニューラル ネットワークから始めたい場合は、長短期記憶ネットワーク (LSTM) を試してみてください。それらのアーキテクチャにより、より安定したトレーニングが可能になります。音声認識のための Keras のセットアップについては、LSTM バイナリ分類のための音声データセットの構築で説明されています

于 2013-10-17T09:15:50.233 に答える