問題タブ [biginsights]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop レデューサー > 1 を設定できません
私は大学の課題に Hadoop を使用していますが、コードは動作していますが、小さな問題が発生しています。
レデューサーの数を19に設定しようとしています(ドキュメントが示唆するように、これは0.95 *容量です)。ただし、タスク トラッカーで自分のジョブを表示すると、合計で 1 つのレデューサーと表示されます。
予想通りの収量:
しかし、最終出力では次のようになります。
私が上書きした mapreduce の部分は次のとおりです。
- マッパー
- レデューサー
- パーティショナー
- グループ化コンパレータ。
私が最初に考えたのは、パーティショナーがすべてのキーに対して同じ値を返しているということでした。これを確認しましたが、そうではありませんでした。
また、グルーパーが正しく動作することも確認しました。
他に何が原因なのかわかりません。誰かがそれを助けることができれば、それは大歓迎です。
私は非常にアンチ Java の人なので、できれば非常に明確な例を試してみてください。
PS: 私はこのクラスターをセットアップしていません。これは大学によってセットアップされたものであるため、構成変数については不明です。PS: 投稿するにはコードが多すぎたので、特に見たいコードがあれば教えてください。
編集: TejasP から次の質問を受けました。
本当にコードを Hadoop またはローカル モードで実行していますか? (ジョブがジョブトラッカーとタスクトラッカーに表示されるかどうかを確認してください)。
はい、jobtracker UI で表示できます。これは、1 つのレデューサーも報告します。注:これには、settings.xmlで1としてリストされているレデューサーがあります
環境で HADOOP 変数をエクスポートしましたか?
はい、それらはenvに表示され、設定するまでコードはコンパイルされません。
クラスターは単一ノードですか、それとも複数ノードですか? および クラスタが複数のノードからなる場合でも、すべてのノードは正常ですか? 他のノードに問題はありますか?
はい、複数のノードがあります (10) ジョブ トラッカー レポート:
setNumReduceTasks を正しく使用していますか? 上で述べたように、set を呼び出してから get を呼び出し、(19) であるとされていた値を取得しましたが、最終的なコードではまだ 1 しか使用されていません。
詳細を削除することで、コードを小さな map-reduce コードに減らすことができます (これはデバッグ用です)。それを実行します。何が起こるか見てください。同じ問題に直面している場合は、元の質問で削減されたコードを提供してください。
結果を元にもう一度編集してみます
hadoop - 豚のセキュリティ問題
PIG 0.7.1 と Biginsights 1.0 を使用している Embedded Pig プログラムがうまく機能しています。今度は、新しいバージョンの PIg(0.9.1) と Biginsights(1.4) で同じプログラムを実行したいと考えています。しかし、私が実行していると、次のエラーが表示されます。
参考までに、java プログラムを使用して hdfs ファイルを読み取ることができます。問題はPIGだけだと思います。この問題を解決するのを手伝ってくれる人はいますか?
これは私のサンプルコードです:
bigdata - Jaql-トップオペレーターのデフォルトの順序
IBMの資料によると-http://publib.boulder.ibm.com/infocenter/bigins/v1r1/index.jsp?topic= % 2Fcom.ibm.swg.im.infosphere.biginsights.doc%2Fdoc%2Fc0057749.html Jaqlの最上位オペレーターのデフォルトの順序は昇順です。しかし、実行すると、デフォルトの順序が降順であることがわかります。BigInsightsバージョン1.4を使用しています。これがドキュメントの問題なのか、このように見える不一致の背後にある他の理由なのかを誰かが知っているのだろうかと思っていました-
biginsights - Java API/Python による gpfs ファイル アクセス
IBM-GPFS は初めてです。Java API 経由で HDFS にアクセスできるため、Python スクリプトを使用します。GPFS ファイルにアクセスする同様の方法はありますか? 解決策を教えてください。
bigdata - vmware イメージを使用する IBM InfoSphere BigInsights にはスクリプトがありません
IBM からの vmware イメージを使用して IBM InfoSphere BigInsights をインストールしようとしています。イメージが正常にロードされ、この doc biginsight reademeに従って redhat 画面が表示されました。
すべてが完全に機能しましたが、デスクトップに「BigInsight サービスの開始」アイコンが表示されません。しかし、webconsole と eclipse がインストールされています。「BigInsight サービスの開始」でターミナルにアクセスする次のステップがスタックしているためです。
hadoop - Hiveを使用して情報スキーマを表示するには?
information_schema
Hive を使用して実装できる方法はありますか? また、Hive でデータ プロファイリングを行うプロセスは何ですか?
次のように使用する SQL の例Information_Schema
:
apache-pig - フィルタが機能していません
Pig クエリを使用して hdfs データをフィルタリングしようとしています。二重引用符で囲まれたデータがあります。例: "AAA"、"BBB"、"YYY"。ここで YYY をフィルタリングしようとしています。次のフィルタリング方法を試しました。
あなたの助けを楽しみにしています。