次のユースケースがあり
ます。リモートの Hadoop クラスターに接続したかったのです。そこで、すべての Hadoop conf ファイル (coresite.xml、hdfs-site.xml など) を取得し、ローカル ファイル システムの 1 つのディレクトリに格納しました。kerberos 認証用の正しい keytab と krb5.conf ファイルを取得しました。Hadoop をインストールし、untar ファイルをあるディレクトリの下に配置しました/User/xyz/hadoop
。次の環境変数を設定しました
。JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
最後に、krb5.conf ファイルを の下に置きました/etc/
。kinit -kt <keytab> <principal user>
このセットアップにより、ローカル ターミナルなどから Hadoop コマンドを使用して正常に認証および実行hadoop fs -ls /
し、クラスターにアクセスすることができました。
ただし、hadoop をダウンロードせずに同じアクションを実行したかったのです。方法はありますか?私は python を使用しており、この hdfs python ライブラリに出会いました。しかし、私はこのライブラリを理解して操作するのに苦労しました。
- 私が達成しようとしていることは可能ですか?
- もしそうなら、正しい方法は何ですか?
- hdfscli libを適切な構成でセットアップする方法を教えてもらえますか?