問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop で小さなファイルの大きなセットを処理する
Hadoop のサンプル プログラム WordCount を使用して、大量の小さなファイル/Web ページ (約 2 ~ 3 kB) を処理しています。これは Hadoop ファイルの最適なファイル サイズからかけ離れているため、プログラムは非常に遅くなります。ジョブの設定と引き裂きのコストが、ジョブ自体よりもはるかに大きいためだと思います。このような小さなファイルは、ファイル名の名前空間を枯渇させる原因にもなります。
この場合、HDFS アーカイブ (HAR) を使用する必要があると読みましたが、このプログラム WordCount を変更してこのアーカイブから読み取る方法がわかりません。プログラムは変更しなくても動作し続けますか、または変更が必要ですか?
アーカイブに多くのファイルをパックしても、パフォーマンスが向上するかどうかは疑問です。複数のファイルをパックしても、1 つのアーカイブ内のこのファイルは 1 つのマッパーによって処理されるのではなく、多くのファイルが処理されることを読みました。これは、私の場合 (推測) パフォーマンスを向上させません。
この質問が単純すぎる場合は、私が Hadoop の初心者であり、Hadoop の経験がほとんどないことを理解してください。
bash - $HADOOP_HOME/bin の外から実行するために bin/hdfs を適応させる方法は?
$HADOOP_HOME/bin に配置されていなくても機能するようにhdfsスクリプトを変更しようとしていますが、変更した hdfs を実行すると次のようになります。
110行目は次のとおりです。
スクリプトに加えた変更を強調表示しました。
-
hadoop - データノードのタイムアウトを取得するには?
レプリケーション係数が 2 の 3 ノード Hadoop セットアップがあります。
データノードの 1 つが停止すると、namenode は 10 分間待機してからライブ ノードから削除します。それまでは、hdfs 書き込みはノードからの悪い ack を言って失敗します。
データノードが停止したノードがすぐに破棄されるように、より短いタイムアウト (1 分など) を設定する方法はありますか?
hbase - hdfs サーバーを追加せずに hbase サーバーを追加することは有益ですか?
Eucalyptus を使用しており、ノード コントローラーに hdfs と hbase を配置することを検討しています。一部のインスタンスで hbase を実行するとパフォーマンスが向上しますか?それとも冗長ですか?
hadoop - 入力フォーマットは、HadoopのMapReduceにデータの局所性を実装する責任がありますか?
HadoopのMap/Reduceフレームワークに関連するデータの局所性を理解しようとしていますが、特に、どのコンポーネントがデータの局所性を処理するかを理解しようとしています(つまり、入力形式ですか?)
Yahooの開発者ネットワークページには、「Hadoopフレームワークは、分散ファイルシステムからの知識を使用して、データ/レコードの場所の近くでこれらのプロセスをスケジュールします」と記載されています。これは、HDFS入力形式が名前ノードにクエリを実行して、目的のデータが含まれているノードを判別し、可能であればそれらのノードでマップタスクを開始することを意味しているようです。どのリージョンが特定のレコードを提供しているかを判別するためにクエリを実行することで、HBaseでも同様のアプローチをとることができると想像できます。
開発者が独自の入力形式を作成する場合、データの局所性を実装する責任がありますか?
hadoop - 分散ファイルストレージとしてのHadoopFS(HDFS)
クライアントビデオホスティングサービスの水平スケーリングファイルストレージシステムとしてHDFSを使用することを検討しています。このニーズに合わせてHDFSが開発されなかったという私の主な懸念は、「大量のデータを処理する必要がある状況で現在使用されているオープンソースシステム」です。データを処理して保存するだけではなく、HDFSをベースに小さな内部AmazonS3アナログのようなものを作成します。
おそらく重要な瞬間は、保存されたファイルサイズが100Mbから10Gbまでかなりgitになることです。
誰かがそのような目的でHDFSを使用しましたか?
hadoop - Hadoop 完全分散モード
私はHadoopの初心者です。「疑似分散モード」で正常に動作する単純な Map/Reduce アプリケーションを開発できました。「完全分散モード」でテストしたいと考えています。それに関していくつか質問があります。
- 1 ~ 10 GB のファイル サイズを処理するには、いくつのマシン (ノード) が必要ですか (最小および推奨)?
- ハードウェア要件は何ですか (主に、コア数、メモリ容量、ディスク容量を知りたい)?
junit - Hadoop JUnitは、hdfsとの間で書き込み/読み取りをテストします
hdfsを読み書きするクラスを作成しました。これらのクラスがインスタンス化されるときに発生する特定の条件を前提として、特定のパスとファイルを作成し、それに書き込みます(または、以前に作成されたパスとファイルに移動して、そこから読み取ります)。いくつかのHadoopジョブを実行してテストしましたが、正しく機能しているようです。
ただし、これをJUnitフレームワークでテストできるようにしたいのですが、JUnitでhdfsの読み取りと書き込みをテストできる適切なソリューションが見つかりませんでした。この件について役立つアドバイスをいただければ幸いです。ありがとう。
hadoop - Cloudera Mountable HDFS は重複排除を提供しますか
HDFS ベースのストレージ クラスターの実行と、Cloudera リリースを通じてマウント可能な HDFS システムを使用する簡単な方法を検討しています。
最初の質問は、これによりデータの自動重複排除が提供されるかということです。
重複排除が行われるかどうかを尋ねる 2 番目の質問は、すべてのユーザーが特定の重複排除されたブロックを含むファイルを削除した場合、実際にそのブロックをストレージから削除するのか、それともそのユーザーのインデックス/参照だけを削除するのかということです。
最後に、この方法には Rainstor 圧縮方法が含まれますか?
ご意見ありがとうございます