問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hadoop/pig でのログのマルチレベル ディレクトリのインポート
ログを S3 に保存し、(Pig) クエリの 1 つが 3 つの異なるログ タイプを取得します。各ログ タイプは、タイプ/日付に基づく一連のサブディレクトリにあります。例えば:
私のクエリは、一定時間、3 種類のログすべてをロードする必要があります。例えば:
私のクエリは、これらすべてのログに対して実行されます。
これを処理する最も効率的な方法は何ですか?
- bash スクリプト拡張を使用する必要がありますか? これが複数のディレクトリで機能するかどうかはわかりません。ロードするログが 10k ある場合、効率的 (または可能) であるとは思えません。
- すべてのログを集約して hdfs に直接プッシュするサービスを作成しますか?
- カスタム Java/Python インポーター?
- 他の考え?
必要に応じてサンプルコードも残していただけると助かります。
ありがとう
hadoop - Hadoop ネームノードがすでにフォーマットされているかどうかを確認するにはどうすればよいですか?
Hadoop namenode を初めて構成するとき、実行する必要があることはわかっています。
ただし、データを HDFS にロードした後にこれを 2 回実行すると、すべてが消去されて再フォーマットされます。namenode が既にフォーマットされているかどうかを確認する簡単な方法はありますか?
hadoop - HDFSによると、ファイルはまだ開いていますが、ファイルへの書き込みプロセスが強制終了されました
私はHadoopを初めて使用し、この問題をグーグルで検索するために過去2時間を費やしましたが、役立つものは何も見つかりませんでした。私の問題は、HDFSが、ファイルへの書き込みプロセスが長い間停止しているにもかかわらず、ファイルがまだ開いていると言っていることです。これにより、ファイルからの読み取りが不可能になります。
ディレクトリでfsckを実行すると、すべてが正常であると報告されます。ただし、「hadoop fsck -fs hdfs:// hadoop / logs / raw / directory_taining_file -openforwrite」を実行すると、次のようになります。
openforwriteであるファイルに対してfsckコマンドを再度実行すると、
誰かが何が起こっているのか、そしてどうすればそれを修正できるのかについて何か考えがありますか?
hadoop - この Hadoop ファイルシステムのインストール エラーをトラブルシューティングするにはどうすればよいですか?
Cloudera 以外の Ubuntu テスト イメージに Hadoop をインストールしようとしています。走るまでは順調だったようだ./bin/start-all.sh
。名前ノードが表示されないためhadoop fs -ls
、ファイルシステムに接続するために a を実行することさえできません。
namenode ログは次のとおりです。
私はchmod -R 755
ルートディレクトリにいて、ディレクトリを作成してディレクトリが存在することを確認することさえしましたmkdir -p
.
これが私のもの/conf/hdfs-site.xml
です:
hadoop - HBase/HDFS の展開は、100mbit/秒のネットワーク インターフェイスで意味がありますか?
100Mbit/s のネットワーク インターフェイスが HDFS のボトルネックになり、その上で HBase の速度が低下すると思います (最大圧縮速度は約 10MB/s など)。この展開は理にかなっていますか?
SSD がゲームに登場する「今」は、1Gbit/s のネットワーク インターフェイスでもボトルネックになる可能性があるため、100Mbit/s のクラスターを構築することは (HDD の場合でも) 考慮に入れるべきではないのではないかと考えています。
bash - /*url* の実際の名前を保存するには?
スクリプトを HDFS (Hadoop) に変換していますが、次のコマンドがあります。
HDFS では、-get を使用してファイルを取得する必要があり、これは機能します。
ただし、 $local_seedsDir/ urlに保存したかったことは言うまでもなく、ダウンロードしたファイル名が何であるかはわかりません。私は知ることができますか?
KISSは私にこう言います:
つまり、ファイルにローカルで URL として名前を付けるだけです。
hadoop - hadoop NullPointerException
2台のコンピューターを使用してhadoopmichael-nollの方法でマルチノードクラスターをセットアップしようとしていました。
hdfsをフォーマットしようとすると、が表示されましたNullPointerException
。
何が原因なのかわかりません。問題を理解するのを手伝ってください。私はこのトピックに精通しているわけではないので、あなたの答えをできるだけ技術的にしないでください。:)
さらに情報が必要な場合は、親切に教えてください。
hadoop - Hadoop HDFS の最大ファイル サイズ
私の同僚は、HDFS には最大ファイル サイズがないと考えています。つまり、128/256 MB のチャンクに分割することで、任意のファイル サイズを格納できます (明らかに、HDFS ディスクにはサイズがあり、それが制限されますが、それが唯一の制限です)。限界があると言っているものが見つからないので、彼女は正しいですか?
ありがとう、ジム
java - Java API を使用して Hadoop でファイルを移動しますか?
Java API を使用して HDFS 内でファイルを移動したいと考えています。これを行う方法がわかりません。FileSystem クラスは、ローカル ファイル システムとの間の移動のみを許可するようです..しかし、それらを HDFS に保持し、そこに移動したいと考えています。
基本的なものが欠けていますか?私がそれを行うことができる唯一の方法は、入力ストリームから読み込んで書き戻すことです...そして古いコピーを削除します(うん)。
ありがとう
hadoop - HDFS 上のフラット ファイルを大規模なデータベース テーブルと同期させるにはどうすればよいですか?
HDFS 上のフラット ファイルを、行の更新がある可能性がある大規模なデータベース テーブルと同期させる最善の方法は何ですか?
sqoop などのツールは、テーブルから新しい行を段階的に抽出できるので便利なように思えますが、行の更新を処理する簡単な方法がわかりません。
行の更新を効率的に処理するには、どのような手法を使用できますか? 毎晩テーブル全体をダンプすることは避けたいことです。