問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
performance - データベースからデータをエクスポートし、HDFS (hadoop fs) に書き込みます
今、db テーブルからデータをエクスポートし、hdfs に書き込もうとしています。
問題は、名前ノードがボトルネックになるかどうかです。ノードキャッシュにスライス(64MB)を指定してからデータノードに渡す仕組みはどうですか?
hdfsを書くよりも良い方法はありますか? 並列処理を利用していないと思うからです。
ありがとう:)
hadoop - Hadoopの全体的なレビューを探しています
Hadoop(300-600ボックスクラスター、コモディティハードウェア)、特に次の側面に関するパフォーマンスレビューを探しています。
- 高い同時読み取りおよび書き込み
- Webクロール
- Mapreduce、並列コンピューティング
- 転置インデックス
java - 「hadoop namenode -format」は java.net.UnknownHostException を返します
私は現在 Hadoop を学んでおり、http://hadoop.apache.org/common/docs/current/single_node_setup.html で定義されている単一ノード テストをセットアップしようとしています。
ssh を構成しました (パスワードなしでログに記録できます)。
私のサーバーは、プロキシの背後にあるイントラネットにあります。
走ろうとすると
bin/hadoop namenode -format
次の java.net.UnknownHostException 例外が発生します。
その後、hadoopを開始しました
しかし、ローカル ファイルをコピーしようとすると、別の新しい例外が発生しました。
どうすればこの問題を解決できますか?
ありがとう
filesystems - HDFS ディレクトリで許可されるファイルの最大数はいくつですか?
HDFS (hadoop) ディレクトリで許可されるファイルとディレクトリの最大数はいくつですか?
hadoop - Hive - zip ファイルからテーブルを作成する
Hiveテーブルを作成したいCSVのzipファイルがたくさんあります。どうするのが一番いいのかを模索中です。
- ファイルを解凍し、HDFS にアップロードします。
- ファイルを HDFS にコピーし、解凍する方法はありますか
- または、他のより良い/推奨される方法はありますか?
hadoop - 複数のクライアントから並行して HDFS ファイルに追加することは可能ですか?
基本的に、質問全体がタイトルにあります。複数のコンピューターから同時に HDFS にあるファイルに追加できるかどうか疑問に思っていますか? 複数のプロセスによって常に生成されるイベントのストリームを保存するようなもの。順序は重要ではありません。
GFS がそのような追加機能をサポートしているという Google の技術プレゼンテーションの 1 つを聞いたことを思い出しますが、HDFS (通常のファイルの append() または SequenceFile を使用) でいくつかの限定的なテストを試みてもうまくいかないようです。
ありがとう、
hadoop - HBase Key-Value圧縮?
私の質問に興味を持ってくれてありがとう。始める前に、私はHadoopとHBaseを初めて使用することをお知らせします。これまでのところ、Hadoopは非常に興味深いものであり、今後さらに貢献したいと思います。
私は主にHBaseのパフォーマンスの向上に興味があります。そのために、Writer
HBaseのメソッドを変更/io/hfile/Hfile.java
して、高速のバッファーデータアセンブリを実行し、Hadoopに直接書き込んで、後でHBaseでロードできるようにしました。
今、私は帯域幅を節約できるようにキーと値のペアを圧縮する方法を考え出そうとしています。私はその方法を理解するために多くの調査を行いました。そして、HBaseには圧縮ライブラリが組み込まれていることに気づきました。
私は現在SequenceFile (1)を見ています; setCompressMapOutput (2)(非推奨); およびクラス圧縮(3)。また、ApacheのMapReduceに関するチュートリアルも見つけました。
誰かが「SequenceFile」とは何か、そしてそれらの圧縮ライブラリとアルゴリズムをどのように実装できるかを説明してもらえますか?これらの異なるクラスとドキュメントは私にとってとても混乱しています。
よろしくお願いします。
-
ハイパーリンク:
(1):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2):hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3):www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html
hbase - HBaseはどのように行を削除しますか?
HBase Bookで、テーブルから行を削除できるようになったことを読みました。
それはどのように正確に機能しますか?このデータは後で削除するためにどこかに移動されますか?
HBaseは、一度書き込まれたファイルの編集におけるHDFSの制限によって制限されているため、どのように機能するのか興味があります。誰かがそれについてもっと知っているなら、あなたに知識を共有してください。
ありがとう。
java - 大きな gzip データ ファイルを HDFS にアップロードする
gzip で圧縮された大きなテキスト データ ファイル (~ 60 GB) を HDFS にアップロードするユース ケースがあります。
以下の私のコードは、これらのファイルを 500 MB のチャンクでアップロードするのに約 2 時間かかります。以下は疑似コードです。誰かがこの時間を短縮するのを手伝ってくれるかどうかを確認していました:
i) int fileFetchBuffer = 500000000; System.out.println("ファイル フェッチ バッファ: " + fileFetchBuffer); int オフセット = 0; int bytesRead = -1;
hadoop - HDFS ディレクトリのサイズを確認する方法は?
私du -sh
は一般的な Linux ファイルシステムを知っています。しかし、HDFS でそれを行うにはどうすればよいでしょうか。