問題タブ [pyhdfs-client]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool pywebhdfs を使用して最大再試行回数を超えました
こんにちは、pywebhdfs python lib を使用しています。HDFSでファイルを呼び出して作成しようとすることで、EMRを接続しています。ここでは接続制限に達していないため、実行していることとは無関係と思われる例外を下回っています。それはwebhdfsの仕組みによるものですか
スロー:
requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): URL で最大再試行回数を超えました: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop (原因: NewConnectionError(': 新しい接続の確立に失敗しました: [Errno 115] 操作が進行中です',))
parquet - HDFS (リモート ファイル システム) での Apache Arrow 接続の問題
pyarrow を接続して hdfs の parquet ファイルを読み書きしたいのですが、接続の問題に直面しています
pyarrow と python pandas をインストールしました。リモート マシンで hdfs に接続しようとしています。
エラー メッセージ
python - hdfscli python ライブラリの使用方法
次のユースケースがあり
ます。リモートの Hadoop クラスターに接続したかったのです。そこで、すべての Hadoop conf ファイル (coresite.xml、hdfs-site.xml など) を取得し、ローカル ファイル システムの 1 つのディレクトリに格納しました。kerberos 認証用の正しい keytab と krb5.conf ファイルを取得しました。Hadoop をインストールし、untar ファイルをあるディレクトリの下に配置しました/User/xyz/hadoop
。次の環境変数を設定しました
。JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
最後に、krb5.conf ファイルを の下に置きました/etc/
。kinit -kt <keytab> <principal user>
このセットアップにより、ローカル ターミナルなどから Hadoop コマンドを使用して正常に認証および実行hadoop fs -ls /
し、クラスターにアクセスすることができました。
ただし、hadoop をダウンロードせずに同じアクションを実行したかったのです。方法はありますか?私は python を使用しており、この hdfs python ライブラリに出会いました。しかし、私はこのライブラリを理解して操作するのに苦労しました。
- 私が達成しようとしていることは可能ですか?
- もしそうなら、正しい方法は何ですか?
- hdfscli libを適切な構成でセットアップする方法を教えてもらえますか?