問題タブ [webhdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
12212 参照

hadoop - WebHDFS REST API を使用して HDFS ファイルをダウンロードする方法はありますか?

WebHDFS REST API を使用して HDFS からファイルをダウンロードする方法はありますか?私が到達した最も近い方法は、open 操作を使用してファイルを読み取り、コンテンツを保存することです。

ファイルを開かずに直接ダウンロードできる API はありますか?公式ドキュメントを参照し、Google も試しましたが、何も見つかりませんでした。誰かが私を正しい方向に向けるか、私にいくつかの指針を提供してもらえますか?

貴重な時間をありがとうございました。

0 投票する
1 に答える
327 参照

hadoop - HDFS を操作するための最小限の依存関係

クライアント アプリケーションからいくつかのファイルを HDFS に配置する必要があります。ジョブを Hadoop にスケジュールする予定はありません。HDFS に何かをドロップする必要があるだけです。

Hadoop-core への Maven の依存関係により、jersey-core など、まったく必要のない多くのものがもたらされます。

Hadoop 依存関係の完全なスタックを取得せずに HDFS で動作する単純なクライアント ライブラリはありますか? 使用できる Maven 依存関係の最小セットは何ですか?

webhdfsが唯一のオプションですか?

0 投票する
3 に答える
6502 参照

hadoop - Hadoop ディレクトリ/ファイルの最終変更時刻

hdfsのすべてのディレクトリとファイルの最終変更時刻を取得する方法はありますか? 情報を表示するページを作成したいのですが、最終変更時刻をすべて 1 つの .txt ファイルで取得する方法がわかりません。

0 投票する
1 に答える
4023 参照

java - Hadoop webhdfs クライアントでの追加操作

私が一緒に投げたJavaクライアントは動作します:

ただし、curl と Python の whoops クライアントはどちらも同様に失敗します。curl は次のとおりです。

おっとクライアントは「接続が拒否されました」で失敗します。ここで何が問題になる可能性がありますか?私が持っている唯一の手がかりは、curlを使用するときのJava例外の「user = dr.who」ですが、構成クラスで使用されるユーザーが何であるか、またはそれを取得する方法がわかりません(それが問題の根本である場合)。助けてください!

0 投票する
0 に答える
313 参照

apache-pig - URL から .gz ファイルへのデータを Pig にロードするにはどうすればよいですか?

Amazon の Elastic MapReduce を使用して、約 2TB のデータに対して豚のスクリプトを実行したいと考えています。問題は、プログラムで tagsource オプションが必要なため、必然的に PigStorage を使用する必要があることです。

よくわかりませんが、PigStorage は HDFS からのみデータをロードすると思います。以下の URL からデータを読み取る必要があるか、URL から直接 HDFS にデータをロードする必要があります: http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

それを行う方法はありますか?

0 投票する
2 に答える
278 参照

caching - Hadoop から画像をキャッシュする方法と、URL で指定されたポート番号を非表示にする方法

http://testing:50070/webhdfs/v1/Test/asaw4zds_ssdf4_ht35-9a1a-4a7b-9n.jpg?op=OPEN

webhdfs を使用して Hadoop 経由で上記の画像をフェッチしています。ブラウザでこの画像をキャッシュしたいのですが、hadoop からの画像をキャッシュするメカニズムと、この URL のポート番号を非表示にする方法はありますか。

0 投票する
2 に答える
2199 参照

python - webhdfs の権限エラー

ネットワーク経由でファイルを保存する便利な方法として、Hadoop の HDFS への REST インターフェイスを使用することに取り組んでいます。テストするために、次の手順に従って Mac (10.8.5) に Hadoop をインストールしました。

http://importantfish.com/how-to-install-hadoop-on-mac-os-x/

それは魔法のように機能し、hadoop を開始して基本的なテストを実行することができました。

hadoop-examples-1.1.2.jar pi 10 100

現在、python クライアントを使用して、webhdfs との間の HTTP 要求を処理しています。

http://pythonhosted.org/pywebhdfs/

しかし、ディレクトリを作成しようとすると、基本的なアクセス許可エラーが発生します。

トレースバック (最後の最後の呼び出し):
ファイル ""、1 行目、
ファイル "/Library/Python/2.7/site-packages/pywebhdfs/webhdfs.py"、207 行目、make_dir
_raise_pywebhdfs_exception(response.status_code, response.text )
ファイル "/Library/Python/2.7/site-packages/pywebhdfs/webhdfs.py"、428 行目、_raise_pywebhdfs_exception でエラー
を発生させ
ます。 :"AccessControlException","javaClassName":"org.apache.hadoop.security.AccessControlException","message":"許可が拒否されました: user=webuser, access=WRITE, inode=\"user\":mlmiller:supergroup:rwxr -xr-x"}}

また、python lib のデフォルトの「webhdfs」ではなく、ユーザーを「hdfs」として指定しようとしましたが、同じ結果が得られました。30分読んだ後、あきらめて、hdfsユーザー、hadoopセキュリティ(インストール命令に従って有効にしました)、およびUNIXユーザーと権限の相互作用を理解していないことに気付きました。

0 投票する
1 に答える
205 参照

hadoop - 特定のジョブの tasktracker ログをプログラムで取得する

こんにちは、OozieClient API を使用しています。OozieClient API を使用して、特定のワークフロー ジョブのタスク トラッカー ログを取得する必要があります。OozieClient API を使用しない場合は、プログラムを使用する他の方法でも問題ありません。現在、OozieClient を使用すると、client.getJobLog() を使用してジョブ ログを取得できますが、ジョブ ログではなく、タスク トラッカー ログが必要です。親切に助けてください。

0 投票する
2 に答える
6590 参照

node.js - HDFS に書き込むには、どの nodejs ライブラリを使用すればよいですか?

nodejs アプリケーションがあり、hadoop HDFS ファイル システムにデータを書き込みたいと考えています。node-hdfs と node-webhdfs の 2 つの主要な nodejs ライブラリを見てきました。誰かがそれを試しましたか?ヒントはありますか?本番環境ではどちらを使用する必要がありますか?

WebHDFS REST API を使用するため、node-webhdfs を使用する傾向があります。node-hdfs は c++ バインディングのようです。

どんな助けでも大歓迎です。

0 投票する
1 に答える
1296 参照

java - スキームのファイルシステムがありません: webhdfs

HDFS にデータをプッシュするクライアントを構築しています。HDFS はファイアウォールの背後にあるクラスター内にあるため、HttpFS をプロキシとして使用してアクセスします。IOExceptionHDFS に読み書きしようとすると、クライアントが終了します。メッセージはNo FileSystem for scheme: webhdfs. コードはとてもシンプルです

最後の行でクラッシュします。私は Maven 3.0.4 でビルドしており、プロジェクトに Hadoop-Client 依存関係 2.2.0 を追加しました。curlコマンドラインからのアクセスは正常に機能します。

これが失敗する理由はありますか?