問題タブ [sqoop2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ハイブとスクープのパーティション
Netezza テーブルからの sqoopd データがあり、出力ファイルは HDFS にありますが、1 つの列がタイムスタンプであり、Hive テーブルに日付列としてロードしたいと考えています。その列を使用して、日付にパーティションを作成したいと思います。どうやってやるの?
例: HDFS のデータは次のようになります = 2013-07-30 11:08:36
ハイブでは、タイムスタンプではなく日付 (2013-07-30) のみを読み込みます。その列を毎日パーティション分割したい。
列ごとにパーティションを動的に渡すにはどうすればよいですか?
ソースとして 1 つのテーブルにデータをロードしようとしました。最終テーブルでは、(date_column=dynamic date) select * from table1 でテーブル パーティションを上書き挿入します。
postgresql-9.3 - ターゲット データベースで sqoop エクスポート列を指定するにはどうすればよいですか?
sqoop (2) エクスポートを使用して avro ファイルから postgres テーブルにデータを入力したいのですが、ソースに id フィールドがなく、自動的にデータを入力する必要があります (シリアル タイプ) が、エラーが発生します。
テーブル DDL:
avro スキーマ:
私が使用するエクスポートコマンド:
しかし、avroスキーマにIDがないというエラーが表示されます:
--columns 引数で対象の列を指定しようとしましたが、うまくいきません。上記のavroファイルをロードするにはどうすればよいですか?
テーブルから id フィールドを削除すると、正常にエクスポートされます
前もって感謝します
hadoop - 複雑なストアド プロシージャをハイブ / Hbase またはその他の Hadoop エコシステムに移行する
以下のような ORACLE ストアド プロシージャがあります:(疑似コード)
ストアドプロシージャの作成(パラメータ)
始める
ステートメントを選択します。
カーソルを呼び出してから、別のテーブルに挿入します。
他のストアド プロシージャの呼び出し。
終わり;
上記のような多くのストアドプロシージャがあります。データが増大し、ストアド プロシージャの実行速度が低下しています。これらのストアド プロシージャを HIVE または他の Hadoop エコシステムに変換したいと考えています。このシナリオをサポートする Hadoop エコシステムを教えてください。
hdfs - Apache Sqoop の耐障害性
Oracle DataWarehouse から HDFS に数百 GB のデータを抽出する増分夜間ジョブを実行したいと考えています。処理後、結果 (数 GB) を Oracle にエクスポートする必要があります。
Amazon AWS で Hadoop を実行しており、データ ウェアハウスはオンプレミスです。AWS とオンプレミスの間のデータ リンクは 100 mbps であり、信頼性がありません。
Sqoop-import を使用して Oracle からデータを取り込み、ネットワークで断続的な停止が発生した場合、Sqoop はこれをどのように処理しますか? また、データの 70% をインポート (またはエクスポート) し、残りの 30% の間にネットワークがダウンした場合はどうなりますか?
Sqoop はデフォルトで JDBC を使用するため、データ転送はネットワーク レベルでどのように行われるのでしょうか? 転送中のデータを圧縮できますか?
hadoop - Sqoop 投機的実行
Sqoop で以下の質問がありますか?
- sqoop のインポート/エクスポート ジョブの投機的実行をオフ/オンに設定できるかどうかに興味がありました。
- また、sqoop のインポート/エクスポート プロセスでレデューサーの数を設定するオプションはありますか。私の分析によると、sqoop はレデューサーを必要としませんが、正しいかどうかはわかりません。これについて私を修正してください。
- 私は、mysql、oracle、および上記以外に使用できる他のデータベースで sqoop を使用しました。
ありがとう
shell - シェル スクリプトでの SQOOP エクスポートが失敗する
シェル スクリプトを使用して、ハイブから mysql にテーブルをエクスポートしています。以下は sqoop エクスポート コマンドです。
上記のコマンドは、CLI から正常に機能します。しかし、シェルスクリプトからは機能せず、以下の警告とエラーが生成されます。
警告 :
エラー:
シェル スクリプトの Sqoop コマンドには、展開される変数があります。
どんな助けでも大歓迎です。私は長い間これに苦労しています...
couchbase - Couchbase からローカル ファイルへのエクスポート
ソファベースのデータを HDFS に移行する必要がありますが、db と Hadoop クラスターに相互にアクセスできません。したがって、推奨される方法で sqoop を使用することはできません。sqoop を使用して (HDFS ではなく) ローカル ファイルにカウチベース データをインポートする方法はありますか。可能であれば、ローカル ファイルを ftp を使用して転送し、sqoop を使用してそれらを HDFS に転送できます。
それが悪い解決策である場合、すべての cb データをローカル ファイルに転送できる他の方法はありますか。この cb クラスターでビューを作成するのは難しい作業であり、使用は避けたいと思います。