“cloudera-cdh”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1204 参照

java - スキーマに関係なく、map reduce で avro ファイルレコードを読み取る

hdfs ファイル全体から avro ファイルを読み取る map reduce プログラムを作成する必要があります。私のマッパーコード入力は、異なるスキーマを持つ異なる avro ファイルになります。コードのマッパー部分では、ファイルスキーマに関係なく、ファイルのレコード全体を読み取る必要があります。avro からレコード全体を読み取る方法を教えてください。

前もって感謝します。

2014-05-20T04:09:12.187

0 投票する

2 に答える

4510 参照

hadoop - Pig の「RM に存在しません」バックエンドエラー

http://www.cloudera.com/content/cloudera-content/cloudera-docs/DemoVMs/Cloudera-QuickStart-VM/cloudera_quickstart_vm.htmlからダウンロードした Cloudera QuickStart VM でエラーが発生します。

私は Tom White のHadoop: The Definitive Guide bookmap_temp.pigからおもちゃの例を試しています。これは、「年ごとの最大温度を見つける」というものです。

temps.txt各行に (年、温度、品質) エントリを含むファイルを作成しました。

1950 0 1

1950 22 1

1950 -11 1

1949 111 1

本のサンプルコードを使用して、次の Pig コードを Grunt ターミナルに入力しました。

と入力した後DUMP records;、次のエラーが表示されました。

2014-05-22 11:33:34,286 [メイン] エラー org.apache.pig.tools.grunt.Grunt - エラー 1066: エイリアスレコードの反復子を開けません。バックエンドエラー: org.apache.hadoop.yarn.exceptions.ApplicationNotFoundException: ID 'application_1400775973236_0006' のアプリケーションが RM に存在しません。

…</p>
ログファイルの詳細: /home/cloudera/Desktop/pig_1400782722689.log

Google 検索でエラーの原因を突き止めようとしました: https://www.google.com/search?q=%22application+with+id%22+%22doesn%27t+exist+in+RM%22.

そこでの結果は役に立ちませんでした。たとえば、http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-troubleshoot-error-vpc.htmlはこのバグについて言及し、「この問題を解決するには、DHCP を含む VPC を設定する必要があります。パラメータが次の値に設定されているオプションセット...」

私はAWSを使用していないため、Amazonが提案する修正は問題ではないようです。

編集：

HDFS ファイルパスは正しいと思います。

hadoop apache-pig cloudera-cdh

2014-05-22T22:53:21.650

0 投票する

1 に答える

1864 参照

hadoop - 色相の動作が非常に遅い

CLoudera Hadoop 4.8 を使用しており、4 つのノードを持つクラスターがあります。問題は、Hue で Hive クエリを開始すると、完了までに 5 時間かかることです。クエリは次のとおりです。

この時点で、ノードの loadavg は

しかし、Hive コンソールから同じクエリを開始すると、終了するまでに 30 分ほどかかります。そしてloadavgが低い！

なぜそれが起こるのですか？

システム：

hadoop hue cloudera-cdh

2014-05-26T07:48:40.953

0 投票する

0 に答える

1130 参照

hadoop - Hadoop (2.3.0) で Guava 15 を使用した NoSuchMethodError

このライブラリを含む Hadoop 用のコンパイル済み jar があります。

Hadoop CDH5.0.1 クラスターに送信すると、次のエラーが発生します。

主なことは、Hadoop のクラスパスに古いバージョンの guava があり、私の前にそれをロードし、使用された関数が存在しないためにクラッシュすることです。

mapreduce.task.classpath.user.precedence 、 mapreduce.task.classpath.first 、mapreduce.job.user.classpath.firstなどの構成パラメーターを試しましたが、どれも機能しませんでした。

この問題を解決するための推測はありますか?

hadoop guava cloudera-cdh

2014-05-28T10:49:28.903

0 投票する

1 に答える

293 参照

google-bigquery - BigQuery のブラウザインターフェースにホワイトラベルを付けることはできますか?

ほとんどの人と同じように、私たちも BigQuery に感銘を受けました。LAN、EC2、またはその他の場所で大量のサーバーを構成する必要がないことと引き換えに、独自の「Dremel」に基づいていることに我慢します。

REST API は優れており、それをアプリに組み込んでいますが、BQ Browser インターフェースもまだ使用していることに気付きます。バックエンドが BQ であることや、データが Google に保存されていることをまったく明かさずに、「汎用 SQL ウィンドウ」のようなものをアプリに組み込みたいと考えています。 Google は BQ ブラウザツールをホワイトラベル方式で使用する方法を提供していますか?

また、既存のブラウザツールへのアクセスを拡張することにも問題があることに注意してください。それは、自分のドメインに存在するユーザーアカウントに依存しています。これは、私たちの場合、顧客の電子メールアドレスでは実行できないことです。REST インターフェイスはサービスレベルのアカウントでこれを解決しますが、それでは SQL ウィンドウ/ブラウザーツールにアクセスできません。

Google の関係者が耳を傾けている場合 (そして、私はあなたがそうであることを知っています)、ブラウザツールをホワイトラベルにすることの利点を検討してください。多くのソフトウェア会社が、それを自社の製品スイートに統合して実行しているのを目にすると思います。 Hadoop/CDH/EMR/Impala/Hive の組み合わせを一周します。

要約すると、ソフトウェア開発者はどのようにして BQ ブラウザーツール (オートコンプリート、クエリ履歴などを含む) を独自の Web ベースアプリにインポートまたはエミュレートするのでしょうか?

google-bigquery elastic-map-reduce cloudera-cdh

2014-05-29T21:19:44.027

0 投票する

1 に答える

46 参照

eclipse - Mapreduce のプログラミング環境 - シームレスな反復開発

MapReduce は初めてです。簡単な単語数の例から始めました。

Eclipse IDE を使用して、単純な Java Maven プロジェクトを作成し、MapReduce 依存関係を追加し、プログラムを Jar にコンパイルし、それを Cloudera CDH VM にコピーし、ダミーの入力データで実行しました。正常に実行されていることを確認したら、その Jar を AWS EMR 環境に取り込み、より大きな (本番) データセットで実行しました。

つまり、Eclipse は私の IDE、Cloudera CDH VM は私の開発環境、AWS EMR は私の実稼働環境です。

このセットアップは、単語数のような小さなプロジェクトを扱っている場合には問題なく機能しますが、MapReduce プロジェクトが大きくなるほど、環境間で Jar ファイルを転送するのが面倒になります。これにより、反復開発が非常に退屈になります。

私が持っているこの環境セットアップを、反復的で大規模な MapReduce 開発プロジェクトにより適したものにするために、調整/改良/解体/再構築できるかどうか疑問に思っていました。

ヘルプ/ヒントをいただければ幸いです。ダンケシェーン。

eclipse mapreduce amazon-emr cloudera-cdh

2014-06-02T05:26:18.263

0 投票する

0 に答える

150 参照

hadoop - CDH 4.5 から CDH 5 へのアップグレード

Spark に備えるために、(CDH 4.5 から) CDH 5 にアップグレードすることを検討しています。HDFS に既にあるデータが心配です。Cloudera のドキュメントでは、 hdfs-site.xml のdfs.name dir(またはdfs.namenode.name.dir) で示される HDFS メタデータをバックアップする必要があると記載されています。問題は、私のhdfs-site.xmlにそのようなエントリがないことです

HDFS の既存のデータを損なうことなく CDH 5 にアップグレードする方法を誰か教えてもらえますか? ありがとう。

hadoop hdfs cloudera-cdh

2014-06-03T06:11:34.920

0 投票する

1 に答える

352 参照

hadoop - ハイブまたはインパラにロードされたテーブルはありません

Centos 6.5 で CDH5 を使用しています。[クエリエディター] > [Hive] または [Impala] を参照すると、左側のテーブルセクションに待機中のスピナーが表示されます。ハイブcliからクエリできるテーブルがあり、テーブルをロードすることはありません。誰かが私を正しい方向に向けることができますか?

hadoop hive cloudera impala cloudera-cdh

2014-06-06T09:42:18.730

問題タブ [cloudera-cdh]

Reference