問題タブ [rhadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
5149 参照

r - RHadoop: 必要な REDUCE 機能が、クラスターでサポートされている最大コンテナー機能を超えています

サンドボックス Hadoop (Cloudera5.1/Hortonworks2.1) 上の R (ビルド 1060) で同様の問題を抱えている人はいますか? CDH5.0では動作するので、新しいR/Hadoopの問題と思われます。

コード:

エラー:

問題は reduceResourceReqt: 4096 maxContainerCapability:1024 にあるようです。yarn-site.xml を変更しようとしましたが、役に立ちませんでした。:(

助けてください...

0 投票する
1 に答える
1365 参照

hadoop - 環境を構成します。RStudio の変数 HADOOP_STREAMING

Horton Hadoop に RStudio 3.1 をインストールしました。

現在、Hadoop ストリーミング環境変数は、このパスを使用して設定されています export HADOOP_STREAMING=/usr/lib/hadoop-mapreduce/hadoop-streaming.jar

RStudio を使用して単純な mapreduce を実行するとエラーが発生します

hadoop.streaming() のエラー: env. 変数 HADOOP_STREAMING が設定されている

hadoop-streaming jar ファイルの正しいパスを誰か教えてもらえますか? ありがとう。

0 投票する
1 に答える
256 参照

hortonworks-data-platform - Hortonworks Data Platform 2.1 (サンドボックス) が非常に単純な RHadoop ジョブを完了できない

8 GM RAM が割り当てられた 64 ビット VM シングル ノードの Hortonworks Data Platform 2.1 (サンドボックス) の上に rhdfs および rmr2 パッケージをインストールしました。次の非常に単純な RHadoop ジョブを実行しようとすると、永遠に時間がかかりますが、完了することはありません (yarn.nodemanager.resource.memory-mb と yarn.scheduler.maximum- の値を増やした後でも実行時エラーは発生しません)。 allocation-mb をデフォルトから 4096 に変更):

基礎となる HDP がこのような非常に単純な RHadoop ジョブを完了する方法についての提案をお待ちしております。

RHadoop のインストール後も HDP が正常に動作していることを確認するために、次のことを確認しました。

0 投票する
1 に答える
763 参照

r - rhdfs ライブラリが動作しない

Cloudera VM に R で Hadoop を使用しようとしています。rhdfs ライブラリを R にロードして問題なく動作しますが、 hdfs.init() を実行しようとすると、これが機能せず、次のエラーが表示されます。

これは私のコードです:

Sys.setenv("HADOOP_CMD"="/usr/lib/hadoop/bin/hadoop") Sys.setenv("HADOOP_STREAMING"="/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5 .0-mr1-cdh5.2.0.jar") Sys.setenv("HADOOP_HOME"="/usr/lib/hadoop") Sys.setenv("HADOOP_CONF_DIR"="/etc/hadoop/conf")

ライブラリ (rhdfs) 必要なパッケージを読み込んでいます: rJava

HADOOP_CMD=/usr/lib/hadoop/bin/hadoop

必ず hdfs.init() hdfs.init() 14/12/11 05:55:21 ERROR security.UserGroupInformation: Unable to find JAAS classes:com.sun.security.auth.UnixPrincipal not found in gnu.gcj を実行してください.runtime.SystemClassLoader{urls=[ファイル:/home/cloudera/R/x86_64-redhat-linux-gnu-library/3.1/rJava/java/boot/], 親=gnu.gcj.runtime.ExtensionClassLoader{urls=[ ]、parent=null}} 14/12/11 05:55:21 WARN util.NativeCodeLoader: お使いのプラットフォームのネイティブ Hadoop ライブラリを読み込めません... .jcall("RJavaTools" でエラーが発生した場合は、組み込みの Java クラスを使用します、「Ljava/lang/Object;」、「invokeMethod」、cl、: java.io.IOException: ログインに失敗しました

0 投票する
1 に答える
705 参照

r - Hadoop で wordcount R サンプル コードを実行するとエラーが発生する

R ワードカウントのコード例:

R コードの最後のステートメントを実行すると、次のエラー メッセージが表示されます。

エラーの後に、次のように表示されます。

出力フォルダーは HDFS に作成されますが、結果は生成されません。問題の原因は何ですか?

更新 1:

localhost:8042 で特定のジョブに対して Hadoop によって提供されたエラー ログを見つけました。

誰が問題が何であるか知っていますか?

更新 2:

$HADOOP_HOME/logs/userlogs/[application_id]/[container_id]/stderr で追加のログ情報を見つけました。

0 投票する
1 に答える
117 参照

r - RHadoop をサポートするように R プログラムを変更する方法

RHadoop と R は初めてです。ライブラリ (Methylkit) を持つ通常の R プログラムを使用しています。この R プログラムを Hadoop で実行する方法について、誰かが洞察を与えることができるのではないかと思っています。元の R プログラムで何を変更する必要がありますか? 誰かが私にアイデアをくれれば本当に助かります。

コード:

0 投票する
2 に答える
1051 参照

r - R 大きな CSV ファイルを HDFS に変換する

現在、R を使用して分析を実行しています。

Rを使用して処理したいヘッダーがすべて同じCSVファイルが多数あります。もともと、各ファイルをRに順番に読み込み、一緒に分析を実行する前にそれらを行バインドしていました。

読み込む必要のあるファイルの数が増えているため、データを操作するためにすべてのファイルをメモリに保持することは、現実的ではなくなりつつあります。

Rを使用せずにすべてのCSVファイルを結合できるため、メモリに保持しません。これにより、関連する分析を実行できるようにするために、巨大な CSV ファイルを HDFS に変換することは理にかなっていますか? これに加えて...または、各csvファイルの分析を個別に実行し、最後に結合する方が理にかなっていますか?

おそらく、分散ファイル システムと、Amazon のマシンのクラスターを使用して分析を効率的に実行できると考えています。

rmr hereを見ると、データを HDFS に変換しますが、実際には大きなデータには驚くべきことではないようです...効率的な分析を可能にする方法で csv を変換するにはどうすればよいでしょうか?