問題タブ [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - sparkR で getItem(x, ...) を使用する方法と、列の特定の値をサブセット化する方法は?
私はsparkRデータフレームを持っています.Rで使用する列からcust_sales
値のみを抽出する必要があります.CQ98901282
cust_id
cust_sales$cust_id[3]
私の提案はgetItem(x, ...)
、抽出に使用できるかということです。そうであれば、引数「x」は列になりますcust_sales$cust_id
- 引数「...」に何が来るか
私の提案が間違っている場合、
/li>getItem(x, ...)
私の例での使用方法と使用方法を教えてください。
ティア、アルン
r - SparkR の NULL に対する AVRO 形式の警告
RStudio で SparkR を使用しています。hiveContext
からデータを抽出するために使用しようとしていますHive/HDFS
。データにはフォーマットがあるように見えますが、データベース内AVRO
の s が適切に宣言されていないため競合しているようです。関数NULL
を使用してデータをロードしようとすると、次のような警告が表示されます。SparkR::sql
このエラーを克服する解決策を提案できる人はいますか?
r - SparkR で DataFrame の特定の列を並べ替えるには
SparkR には DataFrame がありますdata
。time
、game
およびが含まれていますid
。
次に ID = 1 4 1 1 215 985 ..., game
= 1 5 1 10 と time 2012-2-1, 2013-9-9, ... を与え、game
1 から 10 までの数字であるゲームタイプを含みます。
特定のゲームタイプについて、最小時間、つまりこのゲームが初めてプレイされた時間を見つけたいと考えています。ゲームタイプ1の場合、これを行います
この新しいデータには、ゲームタイプ 1 のすべてのデータが含まれています。最小時間を見つけるには、次のようにします。
しかし、これは sparkR では実行できません。「タイプS4のオブジェクトはサブセット化できません」と表示されます。
ゲーム 1 は 2012 年 1 月 2 日、2013 年 5 月 4 日、2011 年 1 月 4 日、... 最小時間を見つけたいと思います。
r - SparkR 1.5 を使用して RStudio の hdfs から大きなファイル (純粋なテキスト、xml、json、csv) を読み取るためのオプション
Spark を初めて使用するので、SparkR を使用して RStudio から hdfs に格納されたデータを読み取るための以下のオプション以外のオプションがあるかどうか、またはそれらを正しく使用しているかどうかを知りたいです。データは、任意の種類 (純粋なテキスト、csv、json、xml、またはリレーショナル テーブルを含む任意のデータベース) で、任意のサイズ (1kb ~ 数 gb) である可能性があります。
textFile(sc, path) はもう使用すべきではないことはわかっていますが、 read.df 関数以外にそのような種類のデータを読み取る可能性はありますか?
次のコードは read.df と jsonFile を使用していますが、jsonFile はエラーを生成します。
read.df は json で機能しますが、改行で区切られているだけのログ メッセージなどのテキストを読み取るにはどうすればよいですか? 例えば
jsonFile のエラーは次のとおりです。
SparkR を再起動したり、SparkR.stop() を呼び出したりしていないため、read.df がエラーをスローする理由がわかりません。
read.df を使用する以外の同じコードでは、sqlContext の代わりに SparkR:::textFile 関数と sc を使用します (古いamplabの紹介に従ってください)。
エラーメッセージは次のとおりです。
このエラーは、パスが正しくないように見えますが、その理由はわかりません。
私が現在使用しているもの:
spark-1.5.0-bin-hadoop2.6 hadoop-2.6.0 Windows(8.1) R バージョン 3.2.2 Rstudio バージョン 0.99.484
ここで、誰かがこの問題に関するヒントを教えてくれることを願っています。
r - CRAN RパッケージリストでSparkRが利用できないのはなぜですか?
次のリンクから、CRANパッケージリストでsparkRパッケージを確認しました。
https://cran.r-project.org/web/packages/available_packages_by_date.html
このリストには sparkR が含まれていないため、sparkR を介してインストールするinstall.packages("package_name")
ことはできません。
パッケージリストにsparkRがリストされていないのはなぜですか?
r - RStudio から YARN で新しい Spark コンテキストと実行者番号を初期化する方法
私はで働いていSparkR
ます。
必要な数の次のコマンドexecutors
を使用して、YARN に Spark コンテキストを設定できます。executor-cores
今、私は新しいSparkコンテキストを初期化しようとしていますが、通常のコマンドラインよりも快適に作業できるRStudioからです。
これを行うには、sparkR.init()
関数を使用する必要があることがわかりました。master
に設定したオプションがありますが、yarn-client
指定方法num-executors
またはexecutor-cores
? 積み上げたところです
sparkr - unionAll 関数は sparkR で実行できません
SparkR には DataFrame がdata
あり、それも含まid
れています。私もliste= 2 9 12 102 154 ... 1451
whereを持っていlength(liste)=3001
ます。data
ID が liste に等しいエントリが必要です。sparkRではこれを行います
これらの 10 回の反復には、約 5 分という長い時間がかかります。すべての反復、つまり 3001 を実行したい場合、sparkR は「エラー returnstatus==0 は true ではありません」と言います。これをどのように解決する必要がありますか?