4

タスクは、 ETLプロジェクトのT部分 (変換) をAzure クラウドに実装することです。HDInsight はそのために使用するのに適したサービスだと思いますが、よくわかりません。この選択を承認または反論してください。

私はこの分野にまったく慣れていないので、誰かが私をここで正しい方向に向けることができれば幸いです.

変換サービス (ジョブ) を開発し、 Azure Storage/Compute EmulatorsVisual Studio 2012 (理想的には C#)を使用してローカルでテストできるようにしたいと考えています。私は、HDInsightがこの図にどのように適合するかを確信しています (もしあったとしても)。変換ジョブは、BLOB ストレージからテキスト ファイルを読み取り、Azure テーブル ストレージにデータを生成 (マップ リデュース) します。

4

2 に答える 2

1

HDInsight ボックスをローカルで確実に実行できます。これは、Azure ストレージおよびコンピューター エミュレーションとは別のものであり、Web プラットフォーム インストーラー (HDInsight を検索するだけ) を介してインストールされます。

ローカル バージョンと Azure バージョンには微妙な違いがいくつかあります。ローカル バージョンは HDFS に格納されたデータを操作するのに対し、クラウドでは Azure Blob コンテナーを使用できます。(MapReduce / Hive / Pig で) プロセスを変換して開発およびテストする限り、これは実際の違いはありません。唯一の違いは、データの入出力方法です。

HDInsight で C# を使用して MapReduce ジョブを確実に作成できることに注意してください。基本的なデータ変換については、Pig のような高レベルの言語や、場合によっては HDInsight で SQL ベースの HiveQL を使用する方がはるかに簡単です。

于 2013-08-23T11:24:53.380 に答える
0

そこから期待される T 変換と自動化のレベルについて、線を引く必要があります。

BLOB からデータを取得して変換を実行する単純なコンソール アプリケーションを使用することをお勧めします。

コンソール アプリケーション アプローチを推奨する理由

  1. 簡単、簡単、同じスキルセット
  2. blob と table の優れた SDK で、必要なことを何でも実行できます
  3. Map-Reduce(HDInsight) は、Azure Storage および c# ファミリのまったく新しい種です。HDInsight は優れていると聞きましたが、それで十分かどうかはわかりません。
  4. 簡単にタスク スケジュールを設定できるコンソール アプリケーションがある場合は、Pub-Sub モデルに基づいて実行したままにします。
  5. 独自の c# - コンソール アプリまたは .exe を使用している場合は、Azure Worker ロールで実行するように簡単に微調整できます。
  6. 独自のアプリ アプローチを採用することで、HDInsight のインストールと設定のオーバーヘッドを取り除くことができます
  7. ワーカー ロールのコストは HDInsight よりも安い
于 2013-08-22T18:43:31.937 に答える