リーダーの randomizationWindow パラメータについて簡単な質問があります。ドキュメントには、メモリ内のデータの量を制御すると書かれていますが、データのランダム性にどのような影響があるかは少しわかりません. トレーニング データ ファイルが 1 つのデータ分布で始まり、別の完全に異なる分布で終わる場合、ランダム化ウィンドウをデータ サイズよりも小さく設定すると、トレーナーに供給されるデータは均一な分布からのものではなくなりますか? 再確認したかっただけです。
質問する
199 次
2 に答える
4
ランダム化/IO についてもう少し詳しく説明するには:
すべてのコーパス/データは常にチャンクに分割されます。チャンクは、チャンクのすべてのシーケンスが一度に読み取られるため、IO の効率化に役立ちます (通常、チャンクは 32/64MB です)。
ランダム化に関しては、2 つのステップがあります。
- すべてのチャンクはランダム化されています
- N 個のサンプルのランダム化ウィンドウが与えられると、ランダマイザーは、合計で約 N 個のサンプルを含む M 個のチャンクのローリング ウィンドウを作成します。このローリングウィンドウ内のすべてのシーケンスはランダム化されます。チャンクのすべてのシーケンスが処理されると、ランダマイザーはそれを解放し、次のチャンクの非同期ロードを開始できます。
于 2017-01-05T09:16:29.977 に答える