“cloudera-cdh”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

520 参照

hadoop - CDH WebHDFS リクエストが EC2 のローカルアドレスにリダイレクトされる

バックエンドの一部をローカルで実行し、ローカルコンピューターから EC2 インスタンスにリクエストを送信する環境をセットアップしようとしています。CDH 4.5 をセットアップしましたが、問題なく動作します。次のリクエストを実行すると

これは、そのリージョン内の任意の EC2 インスタンスから機能しますが、それ以外では機能しません。ローカルで試すと、次のエラーが返されます

通話をこのようにリダイレクトしないように設定できる場所がわかりませんか?

どうもありがとう

2014-04-29T12:25:48.443

0 投票する

2 に答える

3329 参照

hive - Hive は常にローカルモードで mapred ジョブを実行します

マルチノード Hadoop クラスター (2.4.0) を Hive (0.13.0) でテストしています。クラスターは正常に動作しますが、ハイブでクエリを実行すると、mapred ジョブは常にローカルで実行されます。例えば：

hive-site.xml なし (実際には、デフォルト以外の構成ファイルなし) で、mapred.job.tracker を設定します。

そして、クエリを実行します:

何が欠けていますか？

hive cloudera cloudera-cdh

2014-04-29T16:02:43.770

0 投票する

3 に答える

30792 参照

apache-spark - クラス com.hadoop.compression.lzo.LzoCodec が CDH 5 の Spark で見つかりませんか?

私はこの問題に 2 日間取り組んできましたが、まだ方法が見つかりません。

問題: 最新の CDH 5 を介してインストールされた Spark は、Cloudera Manager の Parcels を介して HADOOP_LZO をインストールした後でも、常に LzoCodec クラスが失われていると文句を言います。CDH 5.0.0-1.cdh5.0.0.p0.47 で MR1 を実行しています。

修正を試みてください: 「LZO パーセルの使用」に関する公式の CDH ドキュメントの構成も追加されていますが、問題はまだ残っています。

Google で検索された投稿のほとんどは、上記と同様のアドバイスを提供しています。また、スパークは、そこでアクティブ化されていない YARN に対して実行しようとしていると思われます。しかし、CMF またはこのトピックに関する他の投稿で構成を見つけることができません。

対処法をご存知でしたら教えてください。

apache-spark cloudera-cdh hadoop-lzo

2014-05-03T06:37:14.600

0 投票する

1 に答える

408 参照

hadoop - webhdfs ファイルを開く NullPointerException

webhdfs API を介して HDFS からファイルを開こうとしています。ファイルを作成してアップロードできますが、開こうとするとこのエラーが発生します

次のコマンドを使用して

複数のマシンから（マスターノードから、またはリモートで）これを試しましたが、同じエラーが発生します。CHD4.6で動いています。

ありがとう、

hadoop webhdfs cloudera-cdh

2014-05-09T18:00:52.310

0 投票する

1 に答える

224 参照

hadoop - ファイルを同時にダウンロードするためにMapReduceジョブを書きますか?

これが MapReduce の適切な使用例かどうかはわかりません: 私が実装しようとしている OOZIE ワークフローの一部は、連番 (例: 1 から 20) で名前が付けられた一連のファイルをダウンロードすることです。これらのファイルを同時に (一度に 5 ファイル) ダウンロードしたかったので、次のように 5 つのテキストファイルを作成する Python スクリプトを作成しました。

次に、ワークフローの次のステップとして、download.shコンマ区切りの番号リストを使用して要求されたファイルをダウンロードするシェルスクリプトを作成しました。ワークフローでは、Oozie でストリーミングmapred.input.dirアクションをセットアップし、上記で生成されたファイルを含むディレクトリを入力 ( ) として使用し、download.sh をマッパーコマンドとして使用し、"cat" をレデューサーコマンドとして使用しました。Hadoop は上記の入力ファイルごとに異なるマッパーを生成すると想定しました。

これは時々うまくいくようで、ファイルを正しくダウンロードしますが、実行しようとしてスタックしてしまい、その理由がわかりません。同時ダウンロードの数を増やすと、これが発生することに気付きました (たとえば、txt ファイルごとのファイルではなく、20 などとします)。

私の質問は、これは MapReduce と OOZIE を使用してファイルの並列検索を実装する正しい方法ですか? そうでない場合、これは通常 OOZIE を使用してどのように行われますか? Hive スクリプトを実行する前に CSV ファイルを HDFS に取り込もうとしていますが、それを実現する最善の方法がわかりません。

hadoop oozie cloudera-cdh

2014-05-09T21:16:24.237

0 投票する

1 に答える

932 参照

hadoop - Pig は自身の中間データを読み取ることができません

まず最初に、クラスターに従って Apache Pig バージョン 0.11.0-cdh4.3.0 (再エクスポート) を実行しています。ただし、私のビルドでは 0.11.0-cdh4.5.0 を使用していますが、これは賢明な決定ではありませんが、両方とも Pig v0.11.0 であるため、ここで発生している問題とは関係ないと思います

構造的に次のようなスクリプトがあります (両方のカスタム udf が DataByteArray 型を返します。これは有効な Pig 型であることがわかります)。

Pig はこれを 2 つの mapreduce ジョブに分割します。CubeDimensions が最初のジョブで発生するか、2 番目で発生するかはわかりませんが、最初のジョブの削減段階で発生すると思われます。

したがって、2 番目のジョブのマッピングステージでは、中間データを読み取るだけで、次のことが起こります。

「予期しないデータ型 49 がストリームに見つかりました。」@ org.apache.pig.data.BinInterSedes:422

番号が 48 と 49 の両方であり、BinInterSedes クラスにはどちらも存在しないことがわかりました。

http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/org.apache.pig/pig/0.11.0-cdh4.3.0/org/apache/pig/data/BinInterSedes.java? av=f

しかし、これは豚自身の中間出力であるため、どこで問題が発生した可能性があるのかよくわかりません。私のカスタム UDF はどちらも有効な型を返します。Pig は、認識している型のみを使用して確実に保存することを期待しています。

どんな助けでも大歓迎です。

hadoop apache-pig cloudera-cdh parquet

2014-05-14T11:44:08.503

0 投票する

1 に答える

6150 参照

hadoop - kerberos を使用した Hive メタストアサーバーを使用した Oozie Hive アクション

CDH5を使用しています。kerberos を使用するように Hive メタストアをセットアップしました。つまり、hive-site.xml には次のプロパティがあります。

ログには、hive-metastore サービスの開始時にエラーは表示されません。

Oozie ワークフローでハイブアクションを実行しようとしています。oozie-site.xml ファイルには次のプロパティがあります。

ワークフロー xml ファイルには資格情報タグが含まれています。

ハイブアクションは、'cred' 属性を使用して資格情報を参照します。

このワークフローを実行しようとすると、次のエラーが発生します。

この問題の原因は何ですか？

hadoop hive kerberos oozie cloudera-cdh

2014-05-16T13:47:59.327

0 投票する

1 に答える

419 参照

apache-spark - cloudera tarball 経由で spark をインストールするには?

cdh spark tarball 経由で spark をインストールする方法を考えていました。spark tarball はここにあります。

CDH ドキュメントに記述が見つかりません。
Spark Standalone と Spark on yarn を試してみたいと思います。

apache-spark cloudera-cdh

2014-05-18T10:00:15.627

問題タブ [cloudera-cdh]

Reference