問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
compression - Hadoop が大きなテキスト ファイルを分割し、gzip を使用して分割を圧縮できないのはなぜですか?
私は最近、hadoop と HDFS について調べています。ファイルを HDFS にロードすると、通常はファイルが 64MB のチャンクに分割され、これらのチャンクがクラスター全体に分散されます。ただし、gzip されたファイルは分割できないため、gzip されたファイルではこれを実行できません。これが事実である理由を完全に理解しています(gzipファイルを分割できない理由を説明する必要はありません)。しかし、なぜ HDFS はプレーン テキスト ファイルを入力として取り、それを通常のように分割してから、gzip を使用して各分割を個別に圧縮できなかったのでしょうか? スプリットにアクセスすると、その場で解凍されます。
私のシナリオでは、各分割は完全に個別に圧縮されます。分割間に依存関係がないため、分割のいずれかを解凍するために元のファイル全体を必要としません。これがこのパッチのアプローチです: https://issues.apache.org/jira/browse/HADOOP-7076 、これは私が望むものではないことに注意してください。
これはかなり基本的なようです...何が欠けていますか?なぜこれができなかったのですか?あるいは、それが可能であるなら、なぜ Hadoop 開発者はこのルートを見下ろさなかったのでしょうか? HDFS で分割された gzip されたファイルを望んでいる人々に関して私が見つけた議論の量を考えると、奇妙に思えます。
indexing - HDFS シーケンス ファイルのインデックス作成
非常に大きなシーケンス ファイル (数百万のキーと値のペアがあり、各値の長さが異なる可能性があるため、ランダム アクセス スキームを使用することはできません) をインデックス化するための最良のライブラリ/方法は何ですか?
hadoop - sqoopインポートは完了しましたが、hiveshowテーブルがテーブルを表示できません
hadoop、hive(CDHバージョン)をインストールした後、実行します
すべてうまくいきますが、ハイブコマンドラインに入ってshowtablesを実行しても何もありません。./hadoop fs -lsを使用すると、/ user /(username)/userが存在することがわかります。
どんな助けでも大歓迎です。
- -編集 - - - - - -
次の理由でインポートが失敗します:
hadoop - Hive テーブルを既存のフィールドで分割しますか?
既存のフィールドによる挿入時に Hive テーブルを分割できますか?
日付フィールドと時間フィールドを持つ 10 GB のファイルがあります。このファイルをテーブルにロードし、それらのフィールドをパーティションとして使用する別のパーティション テーブルに挿入して上書きすることはできますか? 次のようなものは機能しますか?
ありがとう!
トラヴィス
ant - Fuse を使用して HDFS をマウントしようとしています。libhdfs をコンパイルできません
libhdfs (外部アプリが hdfs とやり取りできるようにするネイティブ共有ライブラリ) をコンパイルしようとしています。これは、Fuse を使用して Hadoop の hdfs をマウントするために必要な数少ない手順の 1 つです。
コンパイルはしばらくうまくいくように見えますが、「BUILD FAILED」と次の問題の要約で終了します -
commons-logging#commons-logging;1.0.4: commons-logging#commons-logging に設定が見つかりません;1.0.4: 'master'. org.apache.hadoop#Hadoop;working@btsotbal800 commons-logging から必要でした
log4j#log4j;1.2.15: 構成が log4j#log4j;1.2.15: 'master' に見つかりません。org.apache.hadoop#Hadoop;working@btsotbal800 log4j から必要でした
さて、これについていくつか質問があります。私がこれを行うために使用している本では、これらのことが実際に何であるかについて詳しく説明されていません。
- Hadoop が使用する commons-logging および log4j ライブラリはありますか?
- これらのライブラリは $HADOOP_HOME/lib にあるようです。ただし、それらはjarファイルです。それらを抽出し、いくつかの構成を変更してから、jar に再パックする必要がありますか?
- 上記のエラーの「マスター」とはどういう意味ですか? ライブラリの異なるバージョンはありますか?
あなたが提供できる洞察を前もって感謝します。
nosql - NoSQL (特に HBase) でのファイル I/O は推奨されますか? か否か?
私は NoSQL が初めてで、ファイル ストレージにHBaseを使用しようとしています。ファイルを HBase にバイナリとして保存します。
統計は必要ありません。ファイルストレージのみが必要です。
推奨されますか? I/O 速度が気になります。
ストレージに HBase を使用する理由は、HDFSを使用する必要があるためですが、クライアント コンピューターで Hadoop を構築することはできません。そのため、クライアントが HDFS に接続してファイルを取得するのに役立つライブラリをいくつか見つけようとしていました。しかし、私はそれを見つけることができず、接続ライブラリの代わりに HBase を選択しました。
このような場合、どうすればよいですか?
nosql - ファイルI/O用のHbase。およびリモートクライアントでHDFSを接続する方法
あなたが読む前に私は英語に堪能ではないことに注意してください。私はNoSQLを初めて使用し、ファイルストレージにHBaseを使用しようとしています。-ファイルをバイナリとしてHBaseに保存します。統計は必要ありません。必要なのはファイルストレージだけです。推奨されますか!?!?
I/O速度が気になります。
実際、HadoopなしでHDFSに接続する方法が見つからなかったため、ファイルストレージにHBaseを試してみたいと思います。クライアントコンピューターでHadoopをセットアップできません。クライアントがHDFSに接続してファイルを取得するのに役立つライブラリ(RDBMS用のJDBCなど)を見つけようとしていました。しかし、何も見つからず、接続ライブラリの代わりにHBaseを選択しただけです。
誰かに助けてもらえますか?
java - $HADOOP_HOME の外で Java プログラム (HDFS JAVA API を使用) を実行する
HDFS上のファイルにテキストを読み書きする単純なJavaプログラムがあります。hadoop HDFSReadWrite textを使用して実行します。
Eclipse から実行したり、他の Java プログラムと同じように実行したり、Hadoop 環境外で HDFS を使用したりしたいと考えています。それを行う方法はありますか?私はそれが本当に必要です。
hadoop - 「hadoop fs -tail -f」に相当するプログラム
org.apache.hadoop.fs.FileSystem
APIを使用してプログラムで hdfs ファイルを追跡したいと考えています。hadoop fs -tail -f
コマンドと同等の方法で API を使用してファイルを追跡する方法はありますか?
hadoop - Hive/hadoop は、各マッパーがローカルのデータで動作することをどのように保証しますか?
私を悩ませる2つの基本的な質問:
- ハイブがテーブルを格納するために使用する 32 個のファイルのそれぞれが固有のマシンにあることを確認するにはどうすればよいですか?
- その場合、Hive が 32 のマッパーを作成した場合、それぞれがローカルデータで動作することをどのように確認できますか? hadoop/hdfs はこの魔法を保証しますか? それとも、スマートなアプリケーションとしての hive がそれを確実に実現しますか?
背景: 私は 32 台のマシンからなるハイブ クラスターを持っています。
- 私のすべてのテーブルは
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
- 私が使う
hive.enforce.bucketing = true;
- 確認したところ、実際にすべてのテーブルが 32 個のファイルとしてユーザー/ハイブ/ウェアハウスに保存されています
- HDFS レプリケーション係数 2 を使用しています
ありがとう!