問題タブ [fairseq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
107 参照

deep-learning - FairSeq の VQ-Wav2Vec からの出力でフレームが欠落しているのはなぜですか?

以下に示すように、Fairseq ライブラリを使用して、VQ-Wav2Vec コードで特徴抽出のサンプル コードを実行しています。

私の理解では、vq-wav2vec は 10 ミリ秒ごとの入力音声 (16K サンプル/秒でサンプリングされると想定) のサンプルを処理し、これらの 10 ミリ秒の音声のそれぞれについてサイズ [512] サンプルの特徴ベクトルを出力します。したがって、入力音声が 10000 サンプルであるとすると、62 フレーム (62 * 160 = 9920 サンプル) を取得することになります。

60 フレームしか表示されないのはなぜですか?

0 投票する
1 に答える
457 参照

pytorch - PyTorch を使用して Cloud TPU で FairSeq RoBERTa をトレーニングすると、RPC が status = "Unavailable: Socket closed" エラーで失敗する

チュートリアル「Pytorch を使用した Cloud TPU での FairSeq RoBERTa の事前トレーニング」に従って、プリエンプティブル (v2-8) TPU 環境をセットアップし、RoBERTa モデルをトレーニングしました。PyTorch 環境は、ドキュメントで指示されているように torch-xla-1.6 に基づいています。ただし、通常のように GPU でトレーニング ログを出力せず、RPC 失敗の警告 (以下を参照 - ネットワーク エンドポイントはここで削除されます) を 2 ~ 3 日に 2 回 (12 時間の間隔で) スローします。

エポックあたりの私のトレーニング ステップは 161,529 です。ドキュメントによると、v2-8 は、私が構成した 5 つのエポックで 80 時間かかります。しかし、私の仕事はそこでぶら下がっているようです。

アドバイスをお願いします。