問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ローカルから hdfs にファイルをコピーするときの Hadoop DFS エラー
誰かが私が間違っていることを教えてもらえますか?
hadoop - Hadoop DFS 権限エラー
LFS から HDFS にいくつかのファイルを配置しようとすると、このエラーが発生し続けるのはなぜですか?
hadoop - CloudStore 対 HDFS
CloudStoreと HDFSの両方の操作に慣れている人はいますか? CloudStore がどこまでスケーリングされ、本番環境でどれだけ頻繁に使用されているかを知りたいです。CloudStore は HDFS よりも機能が充実しているようです。これら 2 つのファイルシステムについて考えるとき、実際にはどのようなトレードオフがあるのでしょうか?
hadoop - Hadoop へのデータの書き込み
Windows ボックスなどの外部ソースから Hadoop (HDFS) にデータを書き込む必要があります。現在、データを namenode にコピーし、HDFS の put コマンドを使用してクラスターに取り込みます。コードを閲覧したところ、これを行うための API が見つかりませんでした。私が間違っていること、HDFS に対して外部クライアントをコーディングする簡単な方法があることを誰かが教えてくれることを願っています。
storage - スケーラブルな画像ストレージ
私は現在、ある種の画像ストレージも提供する必要がある Web ベースのアプリケーションのアーキテクチャを設計しています。ユーザーは、サービスの重要な機能の 1 つとして写真をアップロードできます。また、これらの画像を表示することも (Web 経由で) 主な用途の 1 つになります。
ただし、このようなスケーラブルなイメージ ストレージ コンポーネントをアプリケーションで実現する方法がわかりません。私はすでに別の解決策を考えましたが、経験が不足しているため、あなたの提案を聞くのを楽しみにしています. 画像とは別に、メタデータも保存する必要があります。ここに私の最初の考えがあります:
HDFS のような (分散) ファイルシステムを使用し、アップロードされた画像とサービス要求を保存するために、専用の Web サーバーを「ファイルシステム クライアント」として準備します。画像のメタデータは、各画像のファイルパス情報を含む追加のデータベースに保存されます。
HDFS の上に HBase のような BigTable 指向のシステムを使用し、画像とメタ データを一緒に保存します。繰り返しますが、ウェブサーバーは画像のアップロードとリクエストを橋渡しします。
画像とメタデータの両方を格納するために、CouchDB のような完全にスキーマレスなデータベースを使用します。さらに、HTTP ベースの RESTful API を使用して、データベース自体をアップロードおよび配信に使用します。(追加の質問: CouchDB は Base64 経由で blob を保存しますが、画像/jpeg などの形式でデータを返すことはできますか?)
hadoop - hadoop.tmp.dirは何である必要がありますか?
Hadoopにはhadoop.tmp.dir
、ドキュメントによると、「他の一時ディレクトリのベース」である構成パラメーターがあります。このパスはローカルファイルシステムを参照していると思います。
この値をに設定しました/mnt/hadoop-tmp/hadoop-${user.name}
。namenodeをフォーマットしてすべてのサービスを開始した後、HDFSで作成されたまったく同じパスが表示されます。
これは、 HDFShadoop.tmp.dir
上の一時的な場所を指しますか?
hadoop - HDFS がデフォルトでファイルをローカルに保存する場所は?
1 ノード クラスターのデフォルト構成で Hadoop を実行しており、HDFS がファイルをローカルに保存する場所を見つけたいと考えています。
何か案は?
ありがとう。
python - 既存のバッチ ログ ファイル集約ソリューションはありますか?
複数のノードのログ ファイル (私の場合は apache アクセスとエラー ログ) からエクスポートし、そのデータをスケジュールされたジョブとしてバッチで集計したいと考えています。私は、ストリーミング データで動作する複数のソリューションを見てきました (つまり、スクライブを考えてください)。目的地を柔軟に定義できるツールが欲しい。この要件は、宛先として HDFS を使用したいという事実から来ています。
これをバッチでサポートするツールを見つけることができませんでした。ホイールを再作成する前に、StackOverflow コミュニティに意見を求めたいと思いました。
解決策が既に Python に存在する場合は、さらに良いでしょう。
hadoop - Hadoop dfs -ls は、hadoop/ ディレクトリ内のファイルのリストを返します
Win7 で cygwin を介して実行される単一ノードの Hadoop 構成をセットアップしました。でHadoopを起動した後
るれにより、hadoop ディレクトリ内のファイルのリストが返されます。それから私は走りますかし -ls はまだ Hadoop ディレクトリの内容を返します。私が理解している限り、何も返さないはずです(空のフォルダー)。私は何を間違っていますか?hadoop - Hadoop 疑似分散モード エラー
Virtualbox を使用して OpenSuse 11.2 VM に Hadoop をセットアップしました。前提条件の構成を作成しました。この例をスタンドアロン モードで正常に実行しました。しかし、疑似分散モードでは、次のエラーが発生します。