0

1) sqoop import-allコマンドを使用しています。

2)ローカルで利用可能な sqoop ソースから分散Hadoop クラスターにETL を実行したいシナリオがあります... ETL を開始するマシンは JDBC ソースにアクセスできますが、クラスター上のすべてのスレーブが持つ保証はありませんJDBC ソースへのアクセス。

私の質問は:

単一の JDBC 接続からすべてのデータをストリーミングするように Sqoop を構成する方法はありますか (おそらく、これは 1 つのマッパーのみを使用することを意味しますが、mapreduce 構成ハッカーを実行するのではなく、sqoop にこれを行うように指示したいと考えています)。

4

2 に答える 2

1

頭の上から 2 つのオプションを想像できます。

1) SQL プロキシを取得し、データベースへのアクセスが保証されているノードにインストールし、そのプロキシを Sqoop 接続に使用します。

2) Hadoop ローカル モードと 1 つのマッパーを使用して Sqoop を実行し、実行がコンピューターから離れないようにします。ただし、このオプションは非常に非効率的であるため、本番環境での使用はお勧めしません。

于 2013-11-13T16:19:16.697 に答える