問題タブ [sqoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ハイブテーブルからリレーショナルデータベースへのデータパイプラインを作成する方法
バックグラウンド :
ログ情報を含むハイブテーブル「ログ」があります。このテーブルには、1時間ごとに新しいログデータが読み込まれます。過去2日間のログをすばやく分析したいので、過去48時間のデータをリレーショナルデータベースに抽出したいと思います。
上記の問題を解決するために、HIVESQLクエリによってロードされるステージングハイブテーブルを作成しました。新しいデータをステージングテーブルにロードした後、sqoopクエリを使用して新しいログをリレーショナルデータベースにロードします。
問題は、sqoopがBATCHのリレーショナルデータベースにデータをロードしていることです。したがって、特定の時間には、特定の時間のログの一部しかありません。
これは、誤った分析出力につながります。
質問:
1)。このSqoopデータの読み込みをトランザクション化する方法。つまり、すべてのレコードがエクスポートされるか、何もエクスポートされません。
2)。このデータパイプラインを構築するための最良の方法は、Hiveテーブル->ステージングテーブル->リレーショナルテーブルのこのプロセス全体です。
技術的な詳細:
Hadoopバージョン1.0.4Hive -
0.9.0
Sqoop-1.4.2
sql-server - sqoop は SQL Server からインポートするときにロックを取得しますか?
sqoop を使用して SQL Server から HDFS にインポートしています。インポート元のテーブルでロックが取得されているかどうか疑問に思っています。もしそうなら、同等のことを行う方法はありWITH(NOLOCK)
ますか?
hadoop - Sqoop を使用してデータを RCFile 形式にインポートできますか?
http://sqoop.apache.org/docs/1.4.0-incubating/SqoopUserGuide.html#id1764646によると
区切りテキストまたは SequenceFiles の 2 つのファイル形式のいずれかでデータをインポートできます。
しかし、RCFile はどうでしょうか?
Sqoop を使用して Oracle DB から HDFS に RCFile 形式でデータをインポートすることはできますか?
はいの場合、それを行う方法は?
hadoop - S3 への Sqoop 増分インポートの間違った FS エラー
--incremental append
でフラグを使用するsqoop import
と、ジョブは失敗します。
ERROR tool.ImportTool: Imported Failed: Wrong FS: s3n://<api_key>:<api_secret>@bucket/folder/
完全なコマンドは次のとおりです。
sqoop import --connect jdbc:postgresql://someplace.net:12345/db --warehouse-dir s3n://<key>:<private>@bucket/folder/ --table my_table --hive-drop-import-delims --escaped-by "\\" --username root --password safepass -m 2 --split-by id --incremental append --check-column id
--incremental' and
--check-column`のないまったく同じコマンドはエラーなしで機能し、期待どおりに正しい s3 ディレクトリにアップロードします。増分インポートを実行して、s3 にアップロードできるようにしたいと考えています。
Sqoop 1.4.1-cdh4.1.3 を使用しています
完全な出力:
java - Hadoop クライアント スクリプトを作成および構成する方法
実行中の Hadoop クラスターがあります。Hadoop ディストリビューション (この場合は 0.20.205.0) をダウンロードしました。
そのクラスターで Hadoop を呼び出すことができるシェル スクリプト (bash/zsh/perl) を作成する必要があります。理想的には、次の方法で Sqoop スクリプトから呼び出せるようにする必要があります。
Hadoop を呼び出して namenode/jobtracker URI を提供するにはどうすればよいですか? Sqoop および DB ドライバーで追加のライブラリを提供するにはどうすればよいですか?
hadoop - 小数点以下0桁を0E-22としてインポートするSqoop
MSSQLデータベースからhadoopとsqoopを使用してテーブルをインポートし、そのテーブルに10進列がある場合、ゼロの列(0.000000000000 ..など)はすべて「0E-22」として保存されます。
MapまたはReduceで値を小数にキャストすると例外がスローされるため、これは非常に面倒です。したがって、列をキャストする前に、列をvarcharまたはチェックにエクスポートする必要があります。どちらも理想的ではありません。
誰かが以前にこれに遭遇し、回避策を得たことがありますか?
ありがとう
database - Sqoop を使用して Sybase からデータをインポートする際の問題
Sqoop を使用して Sybase からデータをインポートしようとしています。ログから、接続を正常に行うことができたと言えます。しかし、私の仕事は失敗し、Sybase からいくつかの SQL 例外が発生しました。私は主に Sybase を扱っているわけではないので、このエラーについて詳しく調べることはできませんでした。私の情報源の 1 つだけが Sybase にあります。
次のコマンドを使用しました:
エラー スニペット:
hadoop - sqoop ライブラリ ディレクトリはどこにありますか?
Sqoop に MySQL コネクタをインストールするには、jar ファイルを Sqoop ディレクトリに配置する必要がありますが、見つかりません (.xml にはありません/usr/lib/sqoop
)。複数のマシンに Sqoop と Cloudera をインストールしました。
マシンの 1 つで Sqoop ディレクトリはどこにありますか?
hadoop - sqoop は多くの NULL 行をインポートします
mysql からハイブにテーブルをインポートしています。テーブルには2115584
行があります。インポート中に私が見る
しかしcount(*)
、インポートしたテーブルで a を実行すると、行があることがわかり49262250
ます。何が起こっている?
更新: が指定されている場合、インポートは正しく機能し--direct
ます。
apache - Sqoop - メイン クラス org.apache.sqoop.Sqoop が見つからないか、読み込めませんでした
Hadoop、Hive、HBase、Sqoopをインストールし、PATH に追加しました。
sqoop
コマンドを実行しようとすると、次のエラーが発生します。
開発環境:
OS: Ubuntu 12.04 64 ビット
Hadoop バージョン: 1.0.4
ハイブ バージョン: 0.9.0
Hbase バージョン: 0.94.5
スクープ バージョン: 1.4.3