問題タブ [hdfs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hiveで、「Load data local inpath」は既存のデータを上書きしますか、それとも追加しますか?
cronでHiveへのインポートを実行したいと思っており、
「データローカルインパス'/tmp / data/x'をテーブルXにロードする」で十分です。
後続のコマンドは、テーブルにすでにあるものを上書きしますか?またはそれは追加されますか?
compression - Hadoop、マッパー出力を圧縮するがレデューサー出力は圧縮しない方法
私はmap-reducejavaプログラムを持っています。このプログラムでは、マッパー出力のみを圧縮しようとし、レデューサー出力は圧縮しません。これは、以下のようにConfigurationインスタンスで次のプロパティを設定することで可能になると思いました。ただし、ジョブを実行すると、生成されたファイルがpart-r-00000.gzであるため、レデューサーによって生成された出力は引き続き圧縮されます。誰かがマッパーデータを正常に圧縮しましたが、レデューサーは圧縮していませんか?それも可能ですか?
//マッパー出力を圧縮します
hadoop - HDFS:HDFSAPIを使用してSequenceFileに追加する
将来のMapReduceジョブのセットアップとしてMapReduceジョブを実行せずに、JavaAPIを使用してHDFSでシーケンスファイルを作成および維持しようとしています。MapReduceジョブのすべての入力データを単一のシーケンスファイルに保存したいのですが、データは1日を通して時間の経過とともに追加されます。問題は、SequenceFileが存在する場合、次の呼び出しは、SequenceFileに追加するのではなく、単に上書きすることです。
もう1つの懸念は、自分の形式のファイルを維持できず、そのデータを使用してMapReduceジョブをいつでも起動できるため、1日の終わりにデータをSequenceFileに変換できないことです。
SequenceFileに追加してその形式を維持するための他のAPI呼び出しが見つかりません。また、フォーマットが必要なため、2つのSequenceFileを単純に連結することはできません。
また、SequenceFileに追加する少量のデータに対してオーバーヘッドが高いため、このためにMapReduceジョブを実行することは避けたかったのです。
考えや回避策はありますか?ありがとう。
hadoop - HadoopMapreduceプログラムの出力をプログラムで読み取る
これは基本的な質問かもしれませんが、Googleで答えを見つけることができませんでした。
出力ディレクトリに複数の出力ファイルを作成するmap-reduceジョブがあります。私のJavaアプリケーションは、リモートのHadoopクラスターでこのジョブを実行します。ジョブが終了したら、org.apache.hadoop.fs.FileSystem
APIを使用してプログラムで出力を読み取る必要があります。出来ますか?
アプリケーションは出力ディレクトリを認識していますが、map-reduceジョブによって生成された出力ファイルの名前は認識していません。HadoopファイルシステムAPIでディレクトリの内容をプログラムで一覧表示する方法はないようです。出力ファイルはどのように読み取られますか?
それはとてもありふれたシナリオのように思われるので、私はそれが解決策を持っていると確信しています。しかし、私は非常に明白な何かを見逃しています。
hadoop - Hadoop/Pig 正規表現マッチング
これは一種の奇妙な状況ですが、MATCHES のようなものを使用してフィルタリングする方法を探していますが、未知のパターン (長さは不明) のリストに基づいています。
つまり、指定された入力が 2 つのファイルで、1 つのファイルの番号が A の場合:
xxxx
yyyy
zzzz
ジーイ
...等...
そしてもう一方はパターン B:
xx.*
yyy.*
...等...
2番目のすべてのパターンで最初の入力をフィルタリングするにはどうすればよいですか?
事前にすべてのパターンを知っていれば、 A = FILTER A BY (num MATCHES 'somepattern.*' OR num MATCHES 'someotherpattern'....); を実行できます。
問題は、それらが事前にわからないことです。それらはパターンであり単純な文字列ではないため、結合/グループを使用することはできません (少なくとも私が知る限り)。多分奇妙なネストされたFOREACH...もの?アイデアはありますか?
hadoop - HDFSからHiveテーブルへのデータのインポート
データはHDFSのdata/2011/01/13/0100 / fileにあります。各ファイルには、名前、IP、URLなどのタブで区切られたデータが含まれています。
Hiveでテーブルを作成し、hdfsからデータをインポートしたいのですが、テーブルにはtime、name、ip、urlが含まれている必要があります。
Hiveを使用してこれらをインポートするにはどうすればよいですか?r時刻もインポートできるように、データは他の形式にする必要がありますか?
hadoop - MapReduceシャッフル/ソートメソッド
少し奇妙な質問ですが、シャッフル/ソートのソート部分でMapReduceがどのようなソートを使用するか知っている人はいますか?(MapReduceパラダイム全体に沿って)マージまたは挿入を考えますが、よくわかりません。
hadoop - Hadoopジョブをリモートで実行中に例外が発生しました
リモートのHadoopクラスターでHadoopジョブを実行しようとしています。以下は私のコードです。
ジョブがすぐに実行を開始すると、マップフェーズの前でも例外がスローされます。
入力ファイルは存在し、コンマ区切りのテキストファイルです。hadoop jar
同じ入力と出力のコマンドを使用して、Hadoopクラスターでジョブを実行できます。しかし、私はそれをリモートで実行することはできません。他のジョブをリモートで実行することもできます。
誰かがこの問題の解決策を教えてもらえますか?