問題タブ [pyhdfs-client]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
6062 参照

hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool pywebhdfs を使用して最大再試行回数を超えました

こんにちは、pywebhdfs python lib を使用しています。HDFSでファイルを呼び出して作成しようとすることで、EMRを接続しています。ここでは接続制限に達していないため、実行していることとは無関係と思われる例外を下回っています。それはwebhdfsの仕組みによるものですか

スロー:

requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): URL で最大再試行回数を超えました: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop (原因: NewConnectionError(': 新しい接続の確立に失敗しました: [Errno 115] 操作が進行中です',))

0 投票する
0 に答える
1052 参照

parquet - HDFS (リモート ファイル システム) での Apache Arrow 接続の問題

pyarrow を接続して hdfs の parquet ファイルを読み書きしたいのですが、接続の問題に直面しています

pyarrow と python pandas をインストールしました。リモート マシンで hdfs に接続しようとしています。

参照リンク - https://towardsdatascience.com/a-gentle-introduction-to-apache-arrow-with-apache-spark-and-pandas-bb19ffe0ddae

エラー メッセージ

0 投票する
0 に答える
266 参照

python - hdfscli python ライブラリの使用方法

次のユースケースがあり
ます。リモートの Hadoop クラスターに接続したかったのです。そこで、すべての Hadoop conf ファイル (coresite.xml、hdfs-site.xml など) を取得し、ローカル ファイル システムの 1 つのディレクトリに格納しました。kerberos 認証用の正しい keytab と krb5.conf ファイルを取得しました。Hadoop をインストールし、untar ファイルをあるディレクトリの下に配置しました/User/xyz/hadoop。次の環境変数を設定しました 。JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR最後に、krb5.conf ファイルを の下に置きました/etc/kinit -kt <keytab> <principal user>このセットアップにより、ローカル ターミナルなどから Hadoop コマンドを使用して正常に認証および実行hadoop fs -ls /し、クラスターにアクセスすることができました。

ただし、hadoop をダウンロードせずに同じアクションを実行したかったのです。方法はありますか?私は python を使用しており、この hdfs python ライブラリに出会いました。しかし、私はこのライブラリを理解して操作するのに苦労しました。

  1. 私が達成しようとしていることは可能ですか?
  2. もしそうなら、正しい方法は何ですか?
  3. hdfscli libを適切な構成でセットアップする方法を教えてもらえますか?