問題タブ [rhadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - RHadoop: 必要な REDUCE 機能が、クラスターでサポートされている最大コンテナー機能を超えています
サンドボックス Hadoop (Cloudera5.1/Hortonworks2.1) 上の R (ビルド 1060) で同様の問題を抱えている人はいますか? CDH5.0では動作するので、新しいR/Hadoopの問題と思われます。
コード:
エラー:
問題は reduceResourceReqt: 4096 maxContainerCapability:1024 にあるようです。yarn-site.xml を変更しようとしましたが、役に立ちませんでした。:(
助けてください...
hadoop - 環境を構成します。RStudio の変数 HADOOP_STREAMING
Horton Hadoop に RStudio 3.1 をインストールしました。
現在、Hadoop ストリーミング環境変数は、このパスを使用して設定されています export HADOOP_STREAMING=/usr/lib/hadoop-mapreduce/hadoop-streaming.jar
RStudio を使用して単純な mapreduce を実行するとエラーが発生します
hadoop.streaming() のエラー: env. 変数 HADOOP_STREAMING が設定されている
hadoop-streaming jar ファイルの正しいパスを誰か教えてもらえますか? ありがとう。
hortonworks-data-platform - Hortonworks Data Platform 2.1 (サンドボックス) が非常に単純な RHadoop ジョブを完了できない
8 GM RAM が割り当てられた 64 ビット VM シングル ノードの Hortonworks Data Platform 2.1 (サンドボックス) の上に rhdfs および rmr2 パッケージをインストールしました。次の非常に単純な RHadoop ジョブを実行しようとすると、永遠に時間がかかりますが、完了することはありません (yarn.nodemanager.resource.memory-mb と yarn.scheduler.maximum- の値を増やした後でも実行時エラーは発生しません)。 allocation-mb をデフォルトから 4096 に変更):
基礎となる HDP がこのような非常に単純な RHadoop ジョブを完了する方法についての提案をお待ちしております。
RHadoop のインストール後も HDP が正常に動作していることを確認するために、次のことを確認しました。
r - rhdfs ライブラリが動作しない
Cloudera VM に R で Hadoop を使用しようとしています。rhdfs ライブラリを R にロードして問題なく動作しますが、 hdfs.init() を実行しようとすると、これが機能せず、次のエラーが表示されます。
これは私のコードです:
Sys.setenv("HADOOP_CMD"="/usr/lib/hadoop/bin/hadoop") Sys.setenv("HADOOP_STREAMING"="/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5 .0-mr1-cdh5.2.0.jar") Sys.setenv("HADOOP_HOME"="/usr/lib/hadoop") Sys.setenv("HADOOP_CONF_DIR"="/etc/hadoop/conf")
ライブラリ (rhdfs) 必要なパッケージを読み込んでいます: rJava
HADOOP_CMD=/usr/lib/hadoop/bin/hadoop
必ず hdfs.init() hdfs.init() 14/12/11 05:55:21 ERROR security.UserGroupInformation: Unable to find JAAS classes:com.sun.security.auth.UnixPrincipal not found in gnu.gcj を実行してください.runtime.SystemClassLoader{urls=[ファイル:/home/cloudera/R/x86_64-redhat-linux-gnu-library/3.1/rJava/java/boot/], 親=gnu.gcj.runtime.ExtensionClassLoader{urls=[ ]、parent=null}} 14/12/11 05:55:21 WARN util.NativeCodeLoader: お使いのプラットフォームのネイティブ Hadoop ライブラリを読み込めません... .jcall("RJavaTools" でエラーが発生した場合は、組み込みの Java クラスを使用します、「Ljava/lang/Object;」、「invokeMethod」、cl、: java.io.IOException: ログインに失敗しました
r - Hadoop で wordcount R サンプル コードを実行するとエラーが発生する
R ワードカウントのコード例:
R コードの最後のステートメントを実行すると、次のエラー メッセージが表示されます。
エラーの後に、次のように表示されます。
と
出力フォルダーは HDFS に作成されますが、結果は生成されません。問題の原因は何ですか?
更新 1:
localhost:8042 で特定のジョブに対して Hadoop によって提供されたエラー ログを見つけました。
誰が問題が何であるか知っていますか?
更新 2:
$HADOOP_HOME/logs/userlogs/[application_id]/[container_id]/stderr で追加のログ情報を見つけました。
r - RHadoop をサポートするように R プログラムを変更する方法
RHadoop と R は初めてです。ライブラリ (Methylkit) を持つ通常の R プログラムを使用しています。この R プログラムを Hadoop で実行する方法について、誰かが洞察を与えることができるのではないかと思っています。元の R プログラムで何を変更する必要がありますか? 誰かが私にアイデアをくれれば本当に助かります。
コード:
r - R 大きな CSV ファイルを HDFS に変換する
現在、R を使用して分析を実行しています。
Rを使用して処理したいヘッダーがすべて同じCSVファイルが多数あります。もともと、各ファイルをRに順番に読み込み、一緒に分析を実行する前にそれらを行バインドしていました。
読み込む必要のあるファイルの数が増えているため、データを操作するためにすべてのファイルをメモリに保持することは、現実的ではなくなりつつあります。
Rを使用せずにすべてのCSVファイルを結合できるため、メモリに保持しません。これにより、関連する分析を実行できるようにするために、巨大な CSV ファイルを HDFS に変換することは理にかなっていますか? これに加えて...または、各csvファイルの分析を個別に実行し、最後に結合する方が理にかなっていますか?
おそらく、分散ファイル システムと、Amazon のマシンのクラスターを使用して分析を効率的に実行できると考えています。
rmr
hereを見ると、データを HDFS に変換しますが、実際には大きなデータには驚くべきことではないようです...効率的な分析を可能にする方法で csv を変換するにはどうすればよいでしょうか?