問題タブ [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop MapReduce のエラー
Hadoop を使用して mapreduce プログラムを実行すると、次のエラーが発生します。
このエラーは何ですか?
java - Hadoop の動的ノード
開始後に Hadoop に新しいノードを追加することはできますか? ノードを削除できることは知っています(マスターはノードの状態を監視する傾向があるため)。
java - JobConf を使用せずに Hadoop ジョブを実行する
JobConf
非推奨のクラス を使用しない Hadoop ジョブを送信する例が 1 つも見つかりません。JobClient
は廃止されていませんが、パラメータを取るメソッドのみをサポートしていJobConf
ます。
Configuration
クラスのみを使用して(ではなくJobConf
)Hadoopマップ/リデュースジョブを送信し、mapreduce.lib.input
代わりにパッケージを使用するJavaコードの例を教えてくださいmapred.input
。
java - mahout でのプログラミング
mahout でプログラムを実行するための段階的な手順は何ですか
amazon - Amazon Mapreduce で実行される pig スクリプトの STREAM キーワード
別のpythonプログラムをアクティブにする豚のスクリプトがあります。自分の Hadoop 環境では実行できましたが、Amazon map reduce WS でスクリプトを実行すると必ず失敗します。
ログは言う:
org.apache.pig.backend.executionengine.ExecException: エラー 2090: 削減計画の処理中にエラーを受け取りました: '' 終了ステータスで失敗しました: org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce で 127。 org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.processOnePackageOutput(PigMapReduce.java:288) の runPipeline(PigMapReduce.java:347) org.apache.pig.backend.hadoop.executionengine.mapReduceLayer. PigMapReduce$Reduce.reduce(PigMapReduce.java:260) org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigMapReduce$Reduce.reduce(PigMapReduce.java:142) org.apache.hadoop.mapred.ReduceTask. run(ReduceTask.java:321) at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2216)
何か案が?
hadoop - あるファイルから別のファイルの単語を検索する Hadoop
あるファイルから単語を読み取り、別のファイルを検索できる Hadoop アプリケーションを構築したいと考えています。
単語が存在する場合 - 1 つの出力ファイルに書き込む必要がある単語が存在しない場合 - 別の出力ファイルに書き込む必要がある
Hadoop でいくつかの例を試しました。2つの質問があります
2 つのファイルはそれぞれ約 200 MB です。別のファイルのすべての単語をチェックすると、メモリ不足が発生する可能性があります。これを行う別の方法はありますか?
Hadoop の reduce フェーズの出力は 1 つのファイルにしか書き込まれないため、異なるファイルにデータを書き込む方法。データを異なる出力ファイルに書き込むために、reduce フェーズのフィルターを使用することは可能ですか?
ありがとうございました。
algorithm - コーパスでの効率的な検索
数十億語のコーパスで検索したい数百万語があります。これを行うための効率的な方法は何でしょうか。
私はトライを考えていますが、トライのオープンソース実装は利用できますか?
ありがとうございました
- 更新しました -
正確に何が必要かについて、もう少し詳しく説明します。
ニュースソースをクロールし、単語の頻度に基づいて人気のある単語を取得するシステムがあります。百万の言葉があるかもしれません。
データは次のようになります。
Word1 Frequency1 Word2 Frequency2(タブ区切り)
また、上記の形式のデータを含む別のソースから最も人気のある単語(10億)を入手しました。
これが私が出力として取得したいものです。
- 両方の情報源に共通する言葉
- 単語は私たちのソースにのみ存在し、参照ソースには存在しません。
- 単語は参照ソースにのみ存在し、ソースには存在しません。
上記の情報に対してcomm(bashコマンド)を使用できるのは単語だけです。commを使用して、両方の列ではなく1つの列とのみ比較する方法がわかりません。
システムはスケーラブルである必要があり、これを毎日実行して結果を比較したいと思います。また、おおよその一致を取得したいと思います。
だから、私はマップリデュースの仕事を書くことを考えています。以下のようにマップを作成して関数を減らす予定ですが、質問はほとんどありません。
2つの質問があります。マップリデュースでは、2つのファイルを含むディレクトリを入力として指定できます。単語を読んでいるファイル名を取得する方法がわかりません。この情報を取得する方法は?削減フェーズはpart-xxxxxという名前のデフォルトファイルにのみ自動的に書き込むため、さまざまな出力ファイルに書き込むにはどうすればよいですか。さまざまな出力ファイルに書き込む方法。
これを読んでくれてありがとう。
python - Python でのデータ処理に Hadoop を使用していますが、どのファイル形式を使用すればよいですか?
Python でのデータ処理に Hadoop を使用していますが、どのファイル形式を使用すればよいですか?
かなりの量のテキストページを含むプロジェクトがあります。
各テキスト ファイルには、処理中に保持する必要があるヘッダー情報が含まれています。ただし、ヘッダーがクラスタリング アルゴリズムに干渉することは望ましくありません。
Hadoop で python を使用しています (または、より適切なサブパッケージはありますか?)
テキスト ファイルをフォーマットし、これらのテキスト ファイルを Hadoop に保存して処理するにはどうすればよいですか?
hadoop - Hadoopとダンボは初めてですが、これらの操作を正しく順序付ける方法は?
次のログ ファイル形式を検討してください。
ダンボを使用して、Hadoop クラスターの各データ行の平均値頻度 (AVF)を計算します。m 個の属性を持つデータ ポイントの AVF は、次のように定義されます。
したがって、最初の行では、avf = (1/3)*(1+2+1) ~= 1.33 です。外れ値は、低い AVF によって識別されます。
プログラミングの問題
次の疑似/Python コードがあります。
問題は、一連のデータ ポイントをmap1
との両方にプラグインし、map2map2
で中間ハッシュを使用する方法です。上記のようにグローバルに定義すると、MapReduce の概念に反するように思えますH
。H
java - 分散コンピューティングアプリケーション
Map reduce / Hadoopは、分散システムに使用されるフレームワーク/プログラムの1つです。
他の人気のあるフレームワーク/プログラムは何ですか?