問題タブ [fairseq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
deep-learning - FairSeq の VQ-Wav2Vec からの出力でフレームが欠落しているのはなぜですか?
以下に示すように、Fairseq ライブラリを使用して、VQ-Wav2Vec コードで特徴抽出のサンプル コードを実行しています。
私の理解では、vq-wav2vec は 10 ミリ秒ごとの入力音声 (16K サンプル/秒でサンプリングされると想定) のサンプルを処理し、これらの 10 ミリ秒の音声のそれぞれについてサイズ [512] サンプルの特徴ベクトルを出力します。したがって、入力音声が 10000 サンプルであるとすると、62 フレーム (62 * 160 = 9920 サンプル) を取得することになります。
60 フレームしか表示されないのはなぜですか?
pytorch - PyTorch を使用して Cloud TPU で FairSeq RoBERTa をトレーニングすると、RPC が status = "Unavailable: Socket closed" エラーで失敗する
チュートリアル「Pytorch を使用した Cloud TPU での FairSeq RoBERTa の事前トレーニング」に従って、プリエンプティブル (v2-8) TPU 環境をセットアップし、RoBERTa モデルをトレーニングしました。PyTorch 環境は、ドキュメントで指示されているように torch-xla-1.6 に基づいています。ただし、通常のように GPU でトレーニング ログを出力せず、RPC 失敗の警告 (以下を参照 - ネットワーク エンドポイントはここで削除されます) を 2 ~ 3 日に 2 回 (12 時間の間隔で) スローします。
エポックあたりの私のトレーニング ステップは 161,529 です。ドキュメントによると、v2-8 は、私が構成した 5 つのエポックで 80 時間かかります。しかし、私の仕事はそこでぶら下がっているようです。
アドバイスをお願いします。