Data Lake Store (DLS) のバックアップ戦略に取り組んでいます。私の計画は、2 つの DLS アカウントを作成し、それらの間でデータをコピーすることです。これを達成するためにいくつかのアプローチを評価しましたが、POSIX ACL (DLS 用語でのアクセス許可) を保持するという要件を満たすものはありません。PowerShell コマンドレットでは、プライマリ DLS から VM にデータをダウンロードし、セカンダリ DLS に再アップロードする必要があります。AdlCopy ツールは Windows 10 でのみ機能し、アクセス許可を保持せず、リージョン間でのデータのコピーもサポートしていません (これは厳密な要件ではありません)。Data Factory は、アクセス許可も保持しないことに気付くまでは、最も賢明なアプローチのように思えました。これにより、最後のオプションである Distcp にたどり着きます。Distcp ガイドによると ( https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html)、このツールは権限の保持をサポートしています。ただし、Distcp を使用することの欠点は、ツールを HDInsight から実行する必要があることです。クラスター内コピーとクラスター間コピーの両方をサポートしていますが、バックアップ操作のためだけに HDInsight クラスターを実行することは望ましくありません。何か不足していますか?誰にもより良い提案がありますか?
質問する
1433 次