問題タブ [hdfs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
19676 参照

hadoop - Hiveで、「Load data local inpath」は既存のデータを上書きしますか、それとも追加しますか?

cronでHiveへのインポートを実行したいと思っており、

「データローカルインパス'/tmp / data/x'をテーブルXにロードする」で十分です。

後続のコマンドは、テーブルにすでにあるものを上書きしますか?またはそれは追加されますか?

0 投票する
5 に答える
48617 参照

compression - Hadoop、マッパー出力を圧縮するがレデューサー出力は圧縮しない方法

私はmap-reducejavaプログラムを持っています。このプログラムでは、マッパー出力のみを圧縮しようとし、レデューサー出力は圧縮しません。これは、以下のようにConfigurationインスタンスで次のプロパティを設定することで可能になると思いました。ただし、ジョブを実行すると、生成されたファイルがpart-r-00000.gzであるため、レデューサーによって生成された出力は引き続き圧縮されます。誰かがマッパーデータを正常に圧縮しましたが、レデューサーは圧縮していませんか?それも可能ですか?

//マッパー出力を圧縮します

0 投票する
2 に答える
4367 参照

hadoop - HDFS:HDFSAPIを使用してSequenceFileに追加する

将来のMapReduceジョブのセットアップとしてMapReduceジョブを実行せずに、JavaAPIを使用してHDFSでシーケンスファイルを作成および維持しようとしています。MapReduceジョブのすべての入力データを単一のシーケンスファイルに保存したいのですが、データは1日を通して時間の経過とともに追加されます。問題は、SequenceFileが存在する場合、次の呼び出しは、SequenceFileに追加するのではなく、単に上書きすることです。

もう1つの懸念は、自分の形式のファイルを維持できず、そのデータを使用してMapReduceジョブをいつでも起動できるため、1日の終わりにデータをSequenceFileに変換できないことです。

SequenceFileに追加してその形式を維持するための他のAPI呼び出しが見つかりません。また、フォーマットが必要なため、2つのSequenceFileを単純に連結することはできません。

また、SequenceFileに追加する少量のデータに対してオーバーヘッドが高いため、このためにMapReduceジョブを実行することは避けたかったのです。

考えや回避策はありますか?ありがとう。

0 投票する
3 に答える
9595 参照

hadoop - HadoopMapreduceプログラムの出力をプログラムで読み取る

これは基本的な質問かもしれませんが、Googleで答えを見つけることができませんでした。
出力ディレクトリに複数の出力ファイルを作成するmap-reduceジョブがあります。私のJavaアプリケーションは、リモートのHadoopクラスターでこのジョブを実行します。ジョブが終了したら、org.apache.hadoop.fs.FileSystemAPIを使用してプログラムで出力を読み取る必要があります。出来ますか?
アプリケーションは出力ディレクトリを認識していますが、map-reduceジョブによって生成された出力ファイルの名前は認識していません。HadoopファイルシステムAPIでディレクトリの内容をプログラムで一覧表示する方法はないようです。出力ファイルはどのように読み取られますか?
それはとてもありふれたシナリオのように思われるので、私はそれが解決策を持っていると確信しています。しかし、私は非常に明白な何かを見逃しています。

0 投票する
2 に答える
779 参照

hadoop - 「security.Groups:グループマッピングimpl = org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout = 300000」を取得するのはなぜですか?

デフォルトのシングルノードセットアップ構成でhadoop-0.21.0を使用しています。

0 投票する
1 に答える
3755 参照

hadoop - Hadoop/Pig 正規表現マッチング

これは一種の奇妙な状況ですが、MATCHES のようなものを使用してフィルタリングする方法を探していますが、未知のパターン (長さは不明) のリストに基づいています。

つまり、指定された入力が 2 つのファイルで、1 つのファイルの番号が A の場合:

xxxx

yyyy

zzzz

ジーイ

...等...

そしてもう一方はパターン B:

xx.*

yyy.*

...等...

2番目のすべてのパターンで最初の入力をフィルタリングするにはどうすればよいですか?

事前にすべてのパターンを知っていれば、 A = FILTER A BY (num MATCHES 'somepattern.*' OR num MATCHES 'someotherpattern'....); を実行できます。

問題は、それらが事前にわからないことです。それらはパターンであり単純な文字列ではないため、結合/グループを使用することはできません (少なくとも私が知る限り)。多分奇妙なネストされたFOREACH...もの?アイデアはありますか?

0 投票する
3 に答える
28361 参照

hadoop - HDFSからHiveテーブルへのデータのインポート

データはHDFSのdata/2011/01/13/0100 / fileにあります。各ファイルには、名前、IP、URLなどのタブで区切られたデータが含まれています。

Hiveでテーブルを作成し、hdfsからデータをインポートしたいのですが、テーブルにはtime、name、ip、urlが含まれている必要があります。

Hiveを使用してこれらをインポートするにはどうすればよいですか?r時刻もインポートできるように、データは他の形式にする必要がありますか?

0 投票する
2 に答える
3542 参照

hadoop - MapReduceシャッフル/ソートメソッド

少し奇妙な質問ですが、シャッフル/ソートのソート部分でMapReduceがどのようなソートを使用するか知っている人はいますか?(MapReduceパラダイム全体に沿って)マージまたは挿入を考えますが、よくわかりません。

0 投票する
2 に答える
4773 参照

hadoop - Hadoopジョブをリモートで実行中に例外が発生しました

リモートのHadoopクラスターでHadoopジョブを実行しようとしています。以下は私のコードです。

ジョブがすぐに実行を開始すると、マップフェーズの前でも例外がスローされます。

入力ファイルは存在し、コンマ区切りのテキストファイルです。hadoop jar同じ入力と出力のコマンドを使用して、Hadoopクラスターでジョブを実行できます。しかし、私はそれをリモートで実行することはできません。他のジョブをリモートで実行することもできます。

誰かがこの問題の解決策を教えてもらえますか?