問題タブ [sqoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - Hive Query を使用した MySQL への Sqoop
Hive テーブルから MySQL テーブルにデータをスクープしたいと考えています。どちらも同じ列のセットを持っていますが、順序が異なります。
mysql テーブルに属する列順序を持つ Hive クエリを使用して、データを mysql テーブルにスクープする方法はありますか?
java - Javaでsqoopを実装する方法
私はHadoopを初めて使用します。sqoopを使用してRDMSからHDFSにデータをエクスポートしようとしています。私はこれをコマンドラインプロンプトから実装しています。ここでJavaでのsqoopの実装のガイドを見つけましたが、sqoop.jarファイルはどこにありますか?
sql-server - HDFSのデータをSQLServerにインポートするか、HDFSのデータをSQLServerにエクスポートします
私は、HDFSからSQLServerにデータを移植するための最良のアプローチを見つけようとしていました。
- SQL Server 2008R2用のsqoopHadoopコネクタを使用してClouderaHadoopからデータをインポートしますか?
- sqoopを使用してClouderaHadoopからSQLServerにデータをエクスポートしますか?
私が読んだたくさんのリンクに基づいて、両方が可能であると確信しています
- http://www.cloudera.com/blog/2011/10/apache-sqoop-overview/
- http://www.microsoft.com/en-in/download/details.aspx?id=27584
しかし、構成とメンテナンスのレベルで発生する可能性のある問題を探しているとき、適切な答えがありません。
私は輸入に行くべきだと強く感じていますが、時々発生する可能性のある問題のトラブルシューティングと保守に不安を感じています。
誰かが最高のものについての考えを共有できますか?
hadoop - com.cloudera.sqoop.SqoopOptions と org.apache.sqoop.SqoopOptions の間に違いはありますか?
apache.sqoop パッケージの実装に問題はありますか? 助けてください。
import - sqoopインポートでクエリコンテンツを変更するにはどうすればよいですか?
英語が下手でごめんなさい...
これが私の問題です。MySQLからHBaseにデータをインポートする必要があります。パフォーマンスを向上させるために、MySQLでは大きなテーブルがいくつかの小さなテーブルに分割されています。たとえば、「message」テーブルは「message_0」、「message_1」、「...」「message_100」に分割されます。
これらのメッセージテーブルをHBaseの単一のテーブル(「message」など)にインポートする必要があります。各テーブルのPKはmessage_idであり、自動インクリメントされます。ご存知のように、HBaseには一意の行キーがあります。message_id列にプレフィックスを追加したいと思います。
これらのテーブルにhbase-row-key列を追加できないため、sqoopクエリ引数の列の内容を変更します。importコマンドを使用したのは次のとおりです。
列エイリアスmessage_key
をHBase行キーとして正常にマップできます。ただし、行キーは30001.0であり、「t0_30001」として期待されます。
クエリは「t0_」+message_idの期待値を返しませんでしたが、直接message_idを返したようです。
また、sqoopで生成されたJavaソースを変更してmessage_idに「t0_」を追加し、コンパイルされたクラスを指定して入力アクションを実行しようとしましたが、どちらも機能しません。
このように見えます
javaソース:
コマンドライン(以下に引数を追加):
--query引数の列の内容を変更することは可能ですか?複数のテーブルからHBaseの1つのテーブルにデータをインポートするには、マップされたジョブを自分で作成する必要がありますか?
この長い質問をお読みいただき、ありがとうございます。
java - Hadoop での DBOutputFormat の使用
Hadoop でDBOutputFormatを使用する場合、最終結果が MySql データベースに移動するとします。Hadoop は、結果を書き込む必要があるたびに個別の接続を作成しますか? (オープン接続が多すぎるとDBに負担がかかります)。私はその形式を使用したことがないので、同じことについての提案は受け入れられます。Sqoopよりもパフォーマンスが優れていますか? Sqoop を使用して、出力ファイルを DB にエクスポートすることもできます。あなたの意見を共有してください。
sql-server-2008 - SQL Server からテーブルをインポートすると sqoop がハングする
SQL Server 2008 R2 データベースから単純なテーブルをハイブにインポートしようとしています。
私のインポートコマンドは -
エラーメッセージは表示されませんが、永遠にハングアップします。SQL Server アクティビティ モニターを見ると、プロセスが作成されていることがわかります。
これがsqoop出力です-
どんな提案でも大歓迎です。
hadoop - コマンド ライン オプションを使用して Hadoop タスクの再試行ポリシーを制御するにはどうすればよいですか?
コマンド ライン オプションを使用して、Hadoop ジョブの再試行ポリシーを制御したいと考えています。たとえば、次の Sqoop ジョブを作成して、MySQL の停止に対する耐障害性を持たせたいと考えています。
一般的な Hadoop ジョブの場合、次のようになります。
hadoop - Sqoop を使用して Postgresql ltree にエクスポートする
HDFS から Postgres にデータをエクスポートするために、Sqoop (1.3.0-cdh3u4) を使用しています。主な問題は、ltree 型の列が 1 つあることです。
Sqoop は --map-column-java を使用して文字列の解析を強制してもエクスポートできません。
何か案が?
cygwin - Windows (Cygwin) に Hive と sqoop をインストールする
Cygwin に Hive と Sqoop をインストールする手順を教えてください。Cygwin に Hadoop-0.20.2 と Hbase 最新の安定版 0.94.1 を既にインストールしており、正常に動作しています。