問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop DFS は現在のディレクトリを指しています
数か月前、CLoudera Hadoop 3 をローカル マシンにインストールしましたが、すべて問題ありませんでした。最近、Whirr もインストールして、クラスターでの作業を開始しました。いくつかの問題に直面しましたが、しばらくすると、クラスターを起動し、そのマスター ノードにログインして作業を開始できます。ただし、最近、入力すると次のことがわかりました。
Hadoop dfs -ls
ローカル マシンに接続すると、DFS の内容ではなく、現在のディレクトリ内のすべてが表示されるようになりました。これは以前は発生しなかったため、Whirr をインストールしたときに何かが台無しになったと考えています。
何が原因で、さらに重要なことに、ローカルの Hadoop dfs が正しい場所を指すようにするにはどうすればよいでしょうか?
hadoop - hbase/hdfsの商用サポート
clouderaがhadoop/hbase/hdfsの商用サポートを提供する最前線にいることを私は知っています。これを提供している他のベンダーはありますか?
-チンメイ
hadoop - HDFS 上のファイル ブロック
Hadoop は、同じファイルの異なるブロックがクラスター内の異なるマシンに格納されることを保証しますか? 明らかに、複製されたブロックは異なるマシン上にあります。
hadoop - 疑似分散Hadoopモードでのhdfsの管理
クアッドコアマシンでhadoopとmahoutを使用して計算を実行したいので、疑似分散モードでhadoopを使用しています。
問題は、ルートドライブのスペースが限られていることです。そのため、他の外付けハードドライブで使用可能なスペースを使用するようにルートドライブを構成するにはどうすればよいですか。
hadoop - Hadoop、ハードウェア、バイオインフォマティクス
分析を実行するために新しいハードウェアを購入しようとしていますが、正しい決定を下しているかどうか疑問に思っています。
設定:
私たちは、DNA シーケンス データを処理するバイオインフォマティクス ラボです。私たちの分野の最大の問題は、計算ではなくデータの量です。1 回の実験ですぐに数十から数百 Gb になり、通常は異なる実験を同時に実行します。もちろん、mapreduce のアプローチは興味深いものですが ( http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.htmlも参照)、すべてのソフトウェアがそのパラダイムを使用しているわけではありません。また、一部のソフトウェアはASCIIファイルを入力/出力として使用し、他のソフトウェアはバイナリファイルで動作します。
何を購入するか: 購入する
可能性のあるマシンは、NAS ストレージ (>20Tb) にリンクされた 32 コアと 192Gb の RAM を備えたサーバーです。これは、(mapreduce 以外の) アプリケーションの多くにとって非常に興味深いセットアップのように思えますが、このような構成は、hadoop/mapreduce/hdfs を意味のある方法で実装することを妨げますか?
どうもありがとう、
ヤン。
hadoop - Java以外のクライアントでHDFSからファイルを読み取る方法
したがって、私のMRジョブはレポートファイルを生成します。そのファイルは、通常のWebレポートインターフェイスのボタンをクリックして出力をダウンロードする必要があるエンドユーザーがダウンロードできる必要があります。このO'Reillyの本の抜粋によると、HTTP読み取り専用インターフェースがあります。XMLベースであると書かれていますが、プログラムで照会、一覧表示、ダウンロードできるものではなく、単にWebブラウザーで表示することを目的とした通常のWebインターフェースのようです。独自のサーブレットベースのインターフェイスを作成する唯一の手段はありますか?または、hadoop cliツールを実行しますか?
hadoop - HiveはHDFSのどこにファイルを保存しますか?
Hiveテーブルとそれらが表す実際のHDFSファイル(またはディレクトリ)の間のマッピングを見つける方法を知りたいです。テーブルファイルに直接アクセスする必要があります。
HiveはファイルをHDFSのどこに保存しますか?
hadoop - データがHadoopノード全体に均等に分散されていることをどのように確認できますか?
ローカルシステムからHDFSにデータをコピーする場合、データがノード全体に均等に分散されていることを確認できますか?
PS HDFSは、各ブロックが3つの異なるノードに格納されることを保証します。しかし、これは私のファイルのすべてのブロックが同じ3つのノードでソートされることを意味しますか?または、HDFSは新しいブロックごとにランダムにそれらを選択しますか?
java - ファイルの場所を値として Hadoop マッパーに渡しますか?
HDFS 内のファイルの場所を値としてマッパーに渡して、実行可能ファイルを実行して処理できるようにすることはできますか?
hadoop - 非常に大きなバイナリファイルを処理するためのHadoop
分散して処理したい非常に大きな分割不可能なバイナリファイルが多数ある場合に、分散したいシステムがあります。これらは数百Gbのオーダーです。さまざまな固定された実装固有の理由により、これらのファイルは並行して処理することはできませんが、同じプロセスで最後まで順番に処理する必要があります。
このアプリケーションはC++で開発されているため、データを送受信するためのHadoopパイプを検討します。各インスタンスは、100Gbから200Gbのオーダーで、独自のデータ(現在は1つのファイルに保存されています)を順番に処理する必要があります。アプリケーションは現在(おそらく)IOに制限されているため、各ジョブを完全にローカルで実行することが重要です。
私はこのデータをホストするためにHDFSに非常に熱心です-冗長コピーを自動的に維持し、新しいノードが追加されたときにリバランスする機能は非常に便利です。また、計算が簡単で、データのできるだけ近くで計算をホストする必要があるため、mapreduceにも熱心です。ただし、この特定のアプリケーションにHadoopがどれほど適しているのか疑問に思っています。
データを表現するために、分割できないファイルを生成したり、代わりに巨大なシーケンスファイルを生成したりできることを知っています(私の場合、これらは単一のファイルに対して10Tbのオーダーになります-すべてのデータをにパックする必要があります1)。したがって、Hadoopを使用してデータを処理することが可能です。ただし、私のモデルはHadoopにあまり適合していないようです。コミュニティは同意しますか?または、このデータを最適にレイアウトするための提案がありますか?または、モデルにより適している可能性のある他のクラスターコンピューティングシステムの場合でも?
この質問は、Hadoopに関する既存の質問と重複している可能性がありますが、私のシステムでは、個々のファイルごとに1桁または2桁以上のデータが必要です(以前は、サイズが数Gbの個々のファイルについて尋ねられた質問を見ました) 。したがって、このサイズのデータであっても、これが以前に回答されている場合はご容赦ください。
ありがとう、
アレックス