大量のデータをオンプレミス データ センターから Windows Azure Blob Storage にコピー/移動することを目的とした、スケジュールされたタスクをセットアップする必要があります。
私が検討したオプションは WebHDFS と Flume です (後者は現在 HDInsight でサポートされていないようです)。
非構造化ファイルをデータ センターから Windows Azure Blob Storage に転送する最も効率的な方法は何ですか?
大量のデータをオンプレミス データ センターから Windows Azure Blob Storage にコピー/移動することを目的とした、スケジュールされたタスクをセットアップする必要があります。
私が検討したオプションは WebHDFS と Flume です (後者は現在 HDInsight でサポートされていないようです)。
非構造化ファイルをデータ センターから Windows Azure Blob Storage に転送する最も効率的な方法は何ですか?
HDInsight を使用している場合は、HDFS を使用する必要はまったくありません。実際、データをアップロードするためにクラスターを実行する必要はありません。HDInsight にデータを取り込む最善の方法は、標準の .NET クライアント、または Azure Management Studio や AzCopy などのサードパーティを使用して、Azure Blob Storage にデータをアップロードすることです。
データを常にストリーミングしたい場合は、Flume、Kafka、Storm などを HDInsight クラスターに対して動作するように設定することをお勧めしますが、それにはクラスター自体である程度のカスタマイズが必要になります。再起動の問題が発生し、永続的なクラスターが必要になります。
いいえ、flume を使用してデータを HDInsight に直接ストリーミングすることはできません。マイクロソフトのブログからの投稿は、
Flume の消費者の大多数は、ストリーミング データを HDFS に格納します。HDFS は、HDInsight で使用される既定のファイル システムではありません。たとえそうであったとしても、公開されている名前ノードまたは HDFS エンドポイントを公開していないため、Flume エージェントがクラスターに到達するのに非常に時間がかかります! したがって、これらの理由と他のいくつかの理由から、答えは通常「いいえ。機能しないか、サポートされていません」です。
CloudBerry ドライブと Flume を使用して、データを HDInsight クラスター/Azure Blob ストレージにストリーミングできます
http://blogs.msdn.com/b/bigdatasupport/archive/2014/03/18/using-apache-flume-with-hdinsight.aspx
ExpressRoute オプションについても言及する価値があります。Microsoft には、ISP と協力して、はるかに高速な接続でデータセンターを Azure に直接接続できる ExpressRoute と呼ばれるプログラムがあります。http://azure.microsoft.com/en-us/services/expressroute/も参照してください。