0

大量のデータをオンプレミス データ センターから Windows Azure Blob Storage にコピー/移動することを目的とした、スケジュールされたタスクをセットアップする必要があります。

私が検討したオプションは WebHDFS と Flume です (後者は現在 HDInsight でサポートされていないようです)。

非構造化ファイルをデータ センターから Windows Azure Blob Storage に転送する最も効率的な方法は何ですか?

4

5 に答える 5

1

HDInsight を使用している場合は、HDFS を使用する必要はまったくありません。実際、データをアップロードするためにクラスターを実行する必要はありません。HDInsight にデータを取り込む最善の方法は、標準の .NET クライアント、または Azure Management Studio や AzCopy などのサードパーティを使用して、Azure Blob Storage にデータをアップロードすることです。

データを常にストリーミングしたい場合は、Flume、Kafka、Storm などを HDInsight クラスターに対して動作するように設定することをお勧めしますが、それにはクラスター自体である程度のカスタマイズが必要になります。再起動の問題が発生し、永続的なクラスターが必要になります。

于 2014-02-21T17:44:40.007 に答える
0

いいえ、flume を使用してデータを HDInsight に直接ストリーミングすることはできません。マイクロソフトのブログからの投稿は、

Flume の消費者の大多数は、ストリーミング データを HDFS に格納します。HDFS は、HDInsight で使用される既定のファイル システムではありません。たとえそうであったとしても、公開されている名前ノードまたは HDFS エンドポイントを公開していないため、Flume エージェントがクラスターに到達するのに非常に時間がかかります! したがって、これらの理由と他のいくつかの理由から、答えは通常「いいえ。機能しないか、サポートされていません」です。

ソース: http://blogs.msdn.com/b/bigdatasupport/archive/2014/03/18/using-apache-flume-with-hdinsight.aspx?CommentPosted=true#commentmessage

于 2015-03-02T05:38:21.290 に答える
0

CloudBerry ドライブと Flume を使用して、データを HDInsight クラスター/Azure Blob ストレージにストリーミングできます

http://blogs.msdn.com/b/bigdatasupport/archive/2014/03/18/using-apache-flume-with-hdinsight.aspx

于 2014-03-25T09:00:18.870 に答える
-2

ExpressRoute オプションについても言及する価値があります。Microsoft には、ISP と協力して、はるかに高速な接続でデータセンターを Azure に直接接続できる ExpressRoute と呼ばれるプログラムがあります。http://azure.microsoft.com/en-us/services/expressroute/も参照してください。

于 2014-10-29T14:40:35.977 に答える