問題タブ [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Cloudera 5.1 の LocalJobRunner でジョブが実行され続ける
すぐに助けが必要です。私たちのジョブは MapR で正常に実行されますが、Cloudera 5.1 で同じジョブを開始すると、ローカル モードで実行され続けます。
これはある種の構成の問題だと確信しています。どの構成設定ですか?
ありがとう。
hadoop - 豚の数を数えて平らにする
こんにちは、私はこのようなデータを持っています:
{"user_id": "kim95", "type": "Book", "title": "Modern Database Systems: The Object Model, Interoperability, and Beyond.", "year": "1995", "publisher": " ACM Press and Addison-Wesley", "authors": [{"name":"null"}], "source": "DBLP"}
{"user_id": "marshallo79", "type": "本", "title": "不等式: 多数派の理論とその応用.", "年": "1979", "出版社": "学術出版", "authors": [{"name":"Albert W. Marshall"},{"name":"Ingram Olkin"}], "source": "DBLP"}
{"user_id": "knuth86a", "type": "Book", "title": "TeX: The Program", "year": "1986", "publisher": "Addison-Wesley", "authors": [{"name":"Donald E. Knuth"}], "source": "DBLP"} ...
そして、発行者、タイトルを取得してからグループにカウントを適用したいのですが、次のスクリプトで「列が必要です...」というエラーが発生しました。
2番目のクエリでは、次のような構造にしたいと思います:(name,year),title
だから私はこれを試しました:
しかし、それもうまくいきません...
何かアイデアはありますか?
scala - CDH5.1 で Spark Shell を使用して HBase への接続を発行する
現在、仮想ボックス用の CDH 5.1 の新しいイメージがあり、spark シェルを使用して HBase に接続しようとすると問題が発生します。スカラコードは次のとおりです。
エラーは次のとおりです。
apache-pig - PIG の一貫性のないレコード数
以下のように単純なロードとカウント機能を実行しています
my_src = LOAD '<>' using PigStorage('|') AS (
<<スキーム定義>> );
my_count = FOREACH (GROUP my_src ALL) GENERATE COUNT(my_src); my_count を「file1」に格納します。
私が得た答えは、約2億7900万行です。
group my_grp = group my_src by (key1, key2, key3 , key4); を実行すると、
my_grp_cnt = FOREACH (GROUP my_grp ALL) GENERATE COUNT(my_grp);
my_count を「file2」に格納します。
私が得る答えは、約5億7200万行です。
私の期待は、減らすのと同じままであるということでした。ここに欠けているものはありますか?
CDH 5 で PIG 0.12 を使用しています
hadoop - serdes jar が機能しない
私はcdh5クイックスタートを歌っています...このスクリプトを実行したいと思います:
しかし、私はこのエラーが発生しました:
ステートメントの処理中にエラーが発生しました: FAILED: 実行エラー、org.apache.hadoop.hive.ql.exec.DDLTask からコード 1 を返します。クラス org.openx.data.jsonserde.objectinspector.JsonObjectInspectorFactory を初期化できませんでした
しかし、私の前の質問 ( Cloudera で Serde を使用して JSON ファイルをロードする) に従って、ここで提案された各 srd をビルドしようとしました: https://github.com/rcongiu/Hive-JSON-Serde しかし、私はいつも同じエラーがあります
solr - Solr コレクションからすべてのデータを削除するにはどうすればよいですか?
Solr コレクション内のインデックス付きデータをすべて削除したいと考えています。できれば、ノード自体の 1 つでシェル コマンドを使用して削除したいと考えています。どうやってやるの?
hadoop - Lily Hbase インデクサーは理由もなく終了します
Cloudera/Solr クラスターを実行しており、hbase-solr (Lily) インデクサーを使用して、Hbase から Solr への NRT インデックス作成を試みています。バッチ モードのインデックス作成は正常に機能します。
しかし、一定のストリームでデータの読み込みを開始すると、Lily インデクサーが次々と死んでいきます。彼らは私に飛び出す特定のエラーメッセージを出力しませんが、すべて同じように終わります:
Cloudera マネージャーも、プロセスが終了したと言う以外に、有用な情報を提供しません。一部のレコードは Solr インデックスで更新されます。これは、少なくともしばらくの間、インデクサーが正しく機能していることを示しています。
RHEL6.5 および JDK7 で最新の CDH 5.1 を実行しています。
hadoop - Oozie Java Action (oozie バージョン 4.0.0-cdh5.1.0) - コンテナー起動からの例外
YARN で Oozie Java アクションを介して MapReduce アプリケーションを実行しようとしています。アプリケーションを実行しようとすると、Java アクションで失敗し、以下のエラー メッセージが表示されます。
ご参考までに
- 最近、CDH クラスターを CDH 4.7 から CDH 5.1 にアップグレードしました。
- 最近、Oozie を 3.X から 4.0.0 にアップグレードしました。
- Oozie 4.0.0 および CDH 5.1 にアップグレードする前は、同じアプリケーションが Oozie でまったく問題なく動作していました。
- 以下のコマンドを使用してコマンドラインで実行すると、MR アプリケーションは完全に正常に動作します。ただし、Oozie Java アクションを実行した場合にのみ失敗します
hadoop jar <<-MyJar->> <<-JobDriver->> <<-inputDir->> <<-outputDir->>