neural-network - ニューラルネットワークのシリアル化された特徴ベクトルをトレーニングして作成する方法は?

Question

シリアル化とは、入力の値が離散的な時間間隔で取得され、ベクトルのサイズも事前にわからないことを意味します。通常、ニューラルネットワークは、固定サイズの並列入力ニューロンと固定サイズの並列出力ニューロンを使用します。

シリアル化された実装を音声認識で使用できます。この場合、ネットワークに時系列の波形を供給し、出力側で音素を取得できます。

誰かが既存の実装を指摘できれば素晴らしいことです。

score 3 · Accepted Answer

シーケンスデータをモデル化するためのニューラルネットワークには、いくつかの種類があります。これらのモデルのほとんどは、リカレントニューラルネットワークとして知られる等価クラスに適合すると言えます。リカレントニューラルネットワークは、通常、接続グラフにサイクルが含まれるニューラルネットワークモデルです。接続グラフのサイクルは通常、ネットワークの過去の「状態」のいくつかの側面をモデル化するために利用できます。たとえば、Elman/Jordan ネット、Echo State Networksなど、さまざまな戦略が開発されています。さまざまな方法でこの状態情報を利用できます。

歴史的に、再帰型ネットを効果的にトレーニングすることは非常に困難でした。ニューラルネットワークの 2 次最適化ツールに関する最近の多くの研究と、ディープニューラルネットワークコミュニティの研究のおかげで、現実世界のタスクのモデル化に有望なリカレントネットワークの最近の例がいくつか開発されました。私の意見では、このようなネットワークの最新の最も優れた例の 1 つは、Ilya Sutskever の「再帰型ニューラルネットワークを使用したテキストの生成」(ICML 2011) であり、再帰型ネットが非常にコンパクトで長距離の n-gram 文字モデルとして使用されています。 . (リンク先のホームページで RNN デモを試してみてください。楽しいです。)

私の知る限り、リカレントネットはまだ音声 -> 音素モデリングにうまく適用されていませんが、Alex Gravesは最近のいくつかの論文でこのタスクについて具体的に言及しています。(実際、彼はこのトピックに関する 2013 年の ICASSP 論文を持っているようです。)

score 3 · Accepted Answer

構造としての単純なニューラルネットワークは、時系列の認識にそれを適用することが非現実的である理由である、時間スケールの変形全体にわたって不変ではありません。時系列を認識するために、通常は汎用通信モデル (HMM) が使用されます。NN を HMM と一緒に使用して、個々の音声フレームを分類できます。このような HMM-ANN 構成では、オーディオがフレームに分割され、フレームスライスが ANN に渡されて音素確率が計算されます。次に、HMM による動的検索を使用して確率シーケンス全体が分析され、最適な一致が得られます。

HMM-ANN システムは通常、より堅牢な HMM-GMM システムからの初期化を必要とするため、スタンドアロンの HMM-ANN 実装はありません。通常、それらは音声認識ツールキット全体の一部です。人気のあるツールキットの中で、 Kaldiには HMM-ANN や HMM-DNN (ディープニューラルネットワーク) の実装があります。

時系列を分類するように設計されたニューラルネットワークもあります。リカレントニューラルネットワークは、音声の分類に使用できます。この例は、Kerasなど、RNN をサポートする任意のツールキットで作成できます。再帰型ニューラルネットワークから始めたい場合は、長短期記憶ネットワーク (LSTM) を試してみてください。それらのアーキテクチャにより、より安定したトレーニングが可能になります。音声認識のための Keras のセットアップについては、LSTM バイナリ分類のための音声データセットの構築で説明されています

neural-network - ニューラルネットワークのシリアル化された特徴ベクトルをトレーニングして作成する方法は?

2 に答える 2

Related

Reference