問題タブ [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1217 参照

performance - データベースからデータをエクスポートし、HDFS (hadoop fs) に書き込みます

今、db テーブルからデータをエクスポートし、hdfs に書き込もうとしています。

問題は、名前ノードがボトルネックになるかどうかです。ノードキャッシュにスライス(64MB)を指定してからデータノードに渡す仕組みはどうですか?

hdfsを書くよりも良い方法はありますか? 並列処理を利用していないと思うからです。

ありがとう:)

0 投票する
1 に答える
721 参照

hadoop - Hadoopの全体的なレビューを探しています

Hadoop(300-600ボックスクラスター、コモディティハードウェア)、特に次の側面に関するパフォーマンスレビューを探しています。

  1. 高い同時読み取りおよび書き込み
  2. Webクロール
  3. Mapreduce、並列コンピューティング
  4. 転置インデックス
0 投票する
4 に答える
21771 参照

java - 「hadoop namenode -format」は java.net.UnknownHostException を返します

私は現在 Hadoop を学んでおり、http://hadoop.apache.org/common/docs/current/single_node_setup.html で定義されている単一ノード テストをセットアップしようとしています

ssh を構成しました (パスワードなしでログに記録できます)。

私のサーバーは、プロキシの背後にあるイントラネットにあります。

走ろうとすると

bin/hadoop namenode -format

次の java.net.UnknownHostException 例外が発生します。

その後、hadoopを開始しました

しかし、ローカル ファイルをコピーしようとすると、別の新しい例外が発生しました。

どうすればこの問題を解決できますか?

ありがとう

0 投票する
5 に答える
15333 参照

filesystems - HDFS ディレクトリで許可されるファイルの最大数はいくつですか?

HDFS (hadoop) ディレクトリで許可されるファイルとディレクトリの最大数はいくつですか?

0 投票する
1 に答える
6871 参照

hadoop - Hive - zip ファイルからテーブルを作成する

Hiveテーブルを作成したいCSVのzipファイルがたくさんあります。どうするのが一番いいのかを模索中です。

  • ファイルを解凍し、HDFS にアップロードします。
  • ファイルを HDFS にコピーし、解凍する方法はありますか
  • または、他のより良い/推奨される方法はありますか?
0 投票する
2 に答える
12558 参照

hadoop - 複数のクライアントから並行して HDFS ファイルに追加することは可能ですか?

基本的に、質問全体がタイトルにあります。複数のコンピューターから同時に HDFS にあるファイルに追加できるかどうか疑問に思っていますか? 複数のプロセスによって常に生成されるイベントのストリームを保存するようなもの。順序は重要ではありません。

GFS がそのような追加機能をサポートしているという Google の技術プレゼンテーションの 1 つを聞いたことを思い出しますが、HDFS (通常のファイルの append() または SequenceFile を使用) でいくつかの限定的なテストを試みてもうまくいかないようです。

ありがとう、

0 投票する
2 に答える
2110 参照

hadoop - HBase Key-Value圧縮?

私の質問に興味を持ってくれてありがとう。始める前に、私はHadoopとHBaseを初めて使用することをお知らせします。これまでのところ、Hadoopは非常に興味深いものであり、今後さらに貢献したいと思います。

私は主にHBaseのパフォーマンスの向上に興味があります。そのために、WriterHBaseのメソッドを変更/io/hfile/Hfile.javaして、高速のバッファーデータアセンブリを実行し、Hadoopに直接書き込んで、後でHBaseでロードできるようにしました。

今、私は帯域幅を節約できるようにキーと値のペアを圧縮する方法を考え出そうとしています。私はその方法を理解するために多くの調査を行いました。そして、HBaseには圧縮ライブラリが組み込まれていることに気づきました。

私は現在SequenceFile (1)を見ています; setCompressMapOutput (2)(非推奨); およびクラス圧縮(3)。また、ApacheのMapReduceに関するチュートリアルも見つけました。

誰かが「SequenceFile」とは何か、そしてそれらの圧縮ライブラリとアルゴリズムをどのように実装できるかを説明してもらえますか?これらの異なるクラスとドキュメントは私にとってとても混乱しています。

よろしくお願いします。

-

ハイパーリンク:

(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html

(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29

(3):www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html

0 投票する
1 に答える
3498 参照

hbase - HBaseはどのように行を削除しますか?

HBase Bookで、テーブルから行を削除できるようになったことを読みました。
それはどのように正確に機能しますか?このデータは後で削除するためにどこかに移動されますか?

HBaseは、一度書き込まれたファイルの編集におけるHDFSの制限によって制限されているため、どのように機能するのか興味があります。誰かがそれについてもっと知っているなら、あなたに知識を共有してください。

ありがとう。

0 投票する
2 に答える
2629 参照

java - 大きな gzip データ ファイルを HDFS にアップロードする

gzip で圧縮された大きなテキスト データ ファイル (~ 60 GB) を HDFS にアップロードするユース ケースがあります。

以下の私のコードは、これらのファイルを 500 MB のチャンクでアップロードするのに約 2 時間かかります。以下は疑似コードです。誰かがこの時間を短縮するのを手伝ってくれるかどうかを確認していました:

i) int fileFetchBuffer = 500000000; System.out.println("ファイル フェッチ バッファ: " + fileFetchBuffer); int オフセット = 0; int bytesRead = -1;

0 投票する
11 に答える
191629 参照

hadoop - HDFS ディレクトリのサイズを確認する方法は?

du -shは一般的な Linux ファイルシステムを知っています。しかし、HDFS でそれを行うにはどうすればよいでしょうか。