問題タブ [pyhdfs-client]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

11 問題

0 投票する

4 に答える

6062 参照

hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool pywebhdfs を使用して最大再試行回数を超えました

こんにちは、pywebhdfs python lib を使用しています。HDFSでファイルを呼び出して作成しようとすることで、EMRを接続しています。ここでは接続制限に達していないため、実行していることとは無関係と思われる例外を下回っています。それはwebhdfsの仕組みによるものですか

スロー:

requests.exceptions.ConnectionError: HTTPConnectionPool(host='masterDNS', port=50070): URL で最大再試行回数を超えました: /webhdfs/v1/user/hadoop/data/myfile.txt?op=CREATE&user.name=hadoop (原因: NewConnectionError(': 新しい接続の確立に失敗しました: [Errno 115] 操作が進行中です',))

2016-03-04T09:58:46.570

0 投票する

0 に答える

1052 参照

parquet - HDFS (リモートファイルシステム) での Apache Arrow 接続の問題

pyarrow を接続して hdfs の parquet ファイルを読み書きしたいのですが、接続の問題に直面しています

pyarrow と python pandas をインストールしました。リモートマシンで hdfs に接続しようとしています。

参照リンク - https://towardsdatascience.com/a-gentle-introduction-to-apache-arrow-with-apache-spark-and-pandas-bb19ffe0ddae

エラーメッセージ

parquet pyarrow apache-arrow pyhdfs-client

2019-05-20T09:43:49.417

0 投票する

0 に答える

266 参照

python - hdfscli python ライブラリの使用方法

次のユースケースがあり
ます。リモートの Hadoop クラスターに接続したかったのです。そこで、すべての Hadoop conf ファイル (coresite.xml、hdfs-site.xml など) を取得し、ローカルファイルシステムの 1 つのディレクトリに格納しました。kerberos 認証用の正しい keytab と krb5.conf ファイルを取得しました。Hadoop をインストールし、untar ファイルをあるディレクトリの下に配置しました/User/xyz/hadoop。次の環境変数を設定しました。JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR最後に、krb5.conf ファイルをの下に置きました/etc/。kinit -kt <keytab> <principal user>このセットアップにより、ローカルターミナルなどから Hadoop コマンドを使用して正常に認証および実行hadoop fs -ls /し、クラスターにアクセスすることができました。

ただし、hadoop をダウンロードせずに同じアクションを実行したかったのです。方法はありますか？私は python を使用しており、この hdfs python ライブラリに出会いました。しかし、私はこのライブラリを理解して操作するのに苦労しました。

私が達成しようとしていることは可能ですか？
もしそうなら、正しい方法は何ですか？
hdfscli libを適切な構成でセットアップする方法を教えてもらえますか?

python hadoop webhdfs pyhdfs-client python-hdfs

2021-02-10T00:52:07.610

1 2 3 4 5 6 7 8 9 10

問題タブ [pyhdfs-client]

hadoop - ConnectionError(MaxRetryError("HTTPConnectionPool pywebhdfs を使用して最大再試行回数を超えました

parquet - HDFS (リモート ファイル システム) での Apache Arrow 接続の問題

python - hdfscli python ライブラリの使用方法

Reference

parquet - HDFS (リモートファイルシステム) での Apache Arrow 接続の問題