コマンドラインからsqoopを使用する方法を知っています。しかし、Javaプログラムを使用してsqoopコマンドを呼び出す方法がわかりません。誰かがコードビューを与えることができますか?
5 に答える
クラスパスにsqoopjarを含め、 Sqoop.runTool()
メソッドを呼び出すことにより、Javaコード内からsqoopを実行できます。コマンドラインのようにプログラムでsqoopするために必要なパラメーターを作成する必要があります(例--connect
など)。
次の点に注意してください。
- sqoopツール名(インポート/エクスポートなど)が最初のパラメーターであることを確認してください。
- クラスパスの順序に注意してください-sqoopにはバージョンXのライブラリが必要であり、別のバージョンを使用しているため、実行が失敗する可能性があります。sqoopが必要とするライブラリが、独自の依存関係によって影が薄くならないようにしてください。commons-io(sqoopにはv1.4が必要)でこのような問題が発生し、commons-io v1.2を使用していたため、NoSuchMethod例外が発生しました。
- 各引数は、個別の配列要素上にある必要があります。たとえば、「-connect jdbc:mysql:...」は、1つではなく、配列内の2つの別個の要素として渡す必要があります。
- sqoopパーサーは、二重引用符で囲まれたパラメーターを受け入れる方法を知っているため、必要に応じて二重引用符を使用します(常にお勧めします)。唯一の例外は、単一の文字を期待するfields-delimited-byパラメーターです。したがって、二重引用符で囲まないでください。
- コマンドライン引数の作成ロジックと実際の実行を分割して、ツールを実際に実行しなくてもロジックを適切にテストできるようにすることをお勧めします。
- 環境への依存を防ぐために、-hadoop-homeパラメーターを使用することをお勧めします。
Sqoop.runTool()
とは対照的な利点は、実行のエラーコードを返すSqoop.Main()
という事実です。runTool()
お役に立てば幸いです。
final int ret = Sqoop.runTool(new String[] { ... });
if (ret != 0) {
throw new RuntimeException("Sqoop failed - return code " + Integer.toString(ret));
}
RL
MySQLからHDFS/HBaseにデータをインポートするためにJavaプログラムでsqoopを使用するためのサンプルコードを以下に示します。クラスパスにsqoopjarがあることを確認してください。
SqoopOptions options = new SqoopOptions();
options.setConnectString("jdbc:mysql://HOSTNAME:PORT/DATABASE_NAME");
//options.setTableName("TABLE_NAME");
//options.setWhereClause("id>10"); // this where clause works when importing whole table, ie when setTableName() is used
options.setUsername("USERNAME");
options.setPassword("PASSWORD");
//options.setDirectMode(true); // Make sure the direct mode is off when importing data to HBase
options.setNumMappers(8); // Default value is 4
options.setSqlQuery("SELECT * FROM user_logs WHERE $CONDITIONS limit 10");
options.setSplitByCol("log_id");
// HBase options
options.setHBaseTable("HBASE_TABLE_NAME");
options.setHBaseColFamily("colFamily");
options.setCreateHBaseTable(true); // Create HBase table, if it does not exist
options.setHBaseRowKeyColumn("log_id");
int ret = new ImportTool().run(options);
Harelが提案したように、run()メソッドの出力をエラー処理に使用できます。これがお役に立てば幸いです。
私にとってはかなりうまくいったトリックがあります。sshを介して、Sqoopコマンドを直接実行できます。使用する必要があるのはSSHJavaライブラリです
これはJavaから独立しています。インポートを実行するリモートシステムにインストールされているSSHライブラリとsqoopを含める必要があります。次に、sshを介してシステムに接続し、MySQLからハイブにデータをエクスポートするコマンドを実行します。
この手順に従う必要があります。
sshxcute javaライブラリをダウンロードします:https ://code.google.com/p/sshxcute/ そしてそれを次のJavaコードを含むJavaプロジェクトのビルドパスに追加します
import net.neoremind.sshxcute.core.SSHExec;
import net.neoremind.sshxcute.core.ConnBean;
import net.neoremind.sshxcute.task.CustomTask;
import net.neoremind.sshxcute.task.impl.ExecCommand;
public class TestSSH {
public static void main(String args[]) throws Exception{
// Initialize a ConnBean object, the parameter list is IP, username, password
ConnBean cb = new ConnBean("192.168.56.102", "root","hadoop");
// Put the ConnBean instance as parameter for SSHExec static method getInstance(ConnBean) to retrieve a singleton SSHExec instance
SSHExec ssh = SSHExec.getInstance(cb);
// Connect to server
ssh.connect();
CustomTask sampleTask1 = new ExecCommand("echo $SSH_CLIENT"); // Print Your Client IP By which you connected to ssh server on Horton Sandbox
System.out.println(ssh.exec(sampleTask1));
CustomTask sampleTask2 = new ExecCommand("sqoop import --connect jdbc:mysql://192.168.56.101:3316/mysql_db_name --username=mysql_user --password=mysql_pwd --table mysql_table_name --hive-import -m 1 -- --schema default");
ssh.exec(sampleTask2);
ssh.disconnect();
}
}
実行可能ファイルの場所と、を使用できるコマンドライン引数がわかっている場合はProcessBuilder
、これを個別に実行してProcess
、Javaが完了とリターンコードを監視できるようにすることができます。
私のために働いたvikasによって与えられたコードに従い、これらのjarファイルをクラスパスに含めてこれらのパッケージをインポートしてください
インポートcom.cloudera.sqoop.SqoopOptions; インポートcom.cloudera.sqoop.tool.ImportTool;
参照ライブラリ
- Sqoop-1.4.4 jar / sqoop
- ojdbc6.jar / sqoop / lib(oracleの場合)
- commons-logging-1.1.1.jar hadoop / lib
- hadoop-core-1.2.1.jar / hadoop
- commons-cli-1.2.jar hadoop / lib
- commmons-io.2.1.jar hadoop / lib
- commons-configuration-1.6.jar hadoop / lib
- commons-lang-2.4.jar hadoop / lib
- jackson-core-asl-1.8.8.jar hadoop / lib
- jackson-mapper-asl-1.8.8.jar hadoop / lib
- コモンズ-httpclient-3.0.1.jarhadoop/ lib
JREシステムライブラリ
1.resources.jar jdk / jre / lib 2.rt.jar jdk / jre / lib 3. jsse.jar jdk / jre / lib 4. jce.jar jdk / jre / lib 5. charsets、jar jdk / jre / lib 6. jfr.jar jdk / jre / lib 7. dnsns.jar jdk / jre / lib / ext 8. sunec.jar jdk / jre / lib / ext 9. zipfs.jar jdk / jre / lib / ext10.sunpkcs11。 jar jdk / jre / lib / ext 11. localedata.jar jdk / jre / lib / ext 12. sunjce_provider.jar jdk / jre / lib / ext
EclipseプロジェクトがJDK1.6を使用していて、追加するライブラリがJDK1.7である場合、エラーが発生することがあります。この場合、Eclipseでプロジェクトを作成するときにJREを構成します。
インポートしたファイルをハイブに入れたい場合は、options.parameter( "-hive-import")を使用する必要がありますか?