問題タブ [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5821 参照

r - SparkR で null エントリを処理する方法

SparkSQL DataFrame があります。

このデータの一部のエントリは空ですが、NULL または NA のようには動作しません。どうすればそれらを削除できますか? 何か案は?

RI ではそれらを簡単に削除できますが、sparkR では S4 システム/メソッドに問題があると言われています。

ありがとう。

0 投票する
1 に答える
1730 参照

apache-spark - SparkR を Spark クラスターに接続する

マシン 1 でマスターを使用して、10 台のマシン (1 ~ 10) で実行されている Spark クラスターがあります。これらはすべて CentOS 6.4 で実行されます。

sparkR を使用して、jupyterhub インストール (CentOS へのインストールに関する問題のために ubuntu docker 内で実行されている) をクラスターに接続し、spark コンテキストを取得しようとしています。

私が使用しているコードは

私が得る出力は

Spark 1.4.1 を使用しています。Spark クラスターも CDH 5 を実行しています。

jupyterhub インストールは pyspark 経由でクラスターに接続でき、pyspark を使用する python ノートブックがあります。

誰かが私が間違っていることを教えてもらえますか?

0 投票する
1 に答える
170 参照

apache-spark - sparkR ジョブからのデータのエクスポート

例に似た R スクリプトがあります。ここでは、hdfs からいくつかのデータをロードし、この場合は Parquet ファイルを介して何らかの形で保存します。

クラスターから別の Spark アプリケーションにデータを取得するにはどうすればよいですか? 現在、sbt-thrift をscroogeに置き換えることを除いて 、hdfs マスターに接続し、この例に従ってファイルを取得することを検討しています。

Hadoop クラスターに直接接続せずにデータを取得する、より慣用的な方法はありますか? hdfs からデータをコピーすることを検討しましたが、parquet は私が理解していることから Hadoop からしか読み取ることができません。

0 投票する
2 に答える
2807 参照

r - SparkR データ フレームをサブセット化する方法

ID と Age を 2 x 3 行列として含むデータセット「人」があるとします。

people2sparkR では、18 歳以上のすべての ID を含む新しいデータセットを作成したいと考えています。この場合は ID 1 と 3 です。sparkR ではこれを行います。

しかし、それは機能しません。新しいデータセットをどのように作成しますか?

0 投票する
1 に答える
50 参照

r - SparkR から R への保存済みベクターを使用する

sparkR から長いベクトルを保存しました。それを保存して、このベクトルを R で使用したいと考えています。ベクトルは u=c(1,2,3,5,6,9,...) であり、このベクトルをデータセットのエントリとして使用したいと考えています: data[ u,] どうすればこれを行うことができますか?

0 投票する
1 に答える
607 参照

r - sparkR 列を使用するには

SparkR Column は、「isNull」などの便利なメソッドの長いリストを提供しますが、sparkR ではそれらの使用に問題があります。このようにRでsparkRを実行します

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sqlContext

たとえば、この u=c() isNull(u) と入力すると、このメッセージが表示されます (関数 (クラス、fdef、mtable) でエラーが発生しました:署名 '"NULL" の関数 'isNull' の継承されたメソッドが見つかりません)

0 投票する
2 に答える
3488 参照

r - SparkR を使用して特定の行を取得する

タイプ DataFrame の SparkR にデータセット「データ」があります。たとえば、エントリ番号50を取得したい。RIでは単純に入力data[50,]しますが、sparkRでこれを行うと、このメッセージが表示されます

「エラー: タイプ 'S4' のオブジェクトはサブセット化できません」

これを解決するにはどうすればよいですか?

さらに:どうすれば(同じ列サイズの)列をデータに追加できますか?

0 投票する
1 に答える
119 参照

r - 関数値を SparkR のファイルに保存する

いくつかの計算値があり、それらを SparkR に保存したいと考えています。

csvファイルとして保存すると

何らかの理由で非常に長い時間がかかります。これを行うより良い方法はありますか?

0 投票する
2 に答える
218 参照

sparkr - sparkR で新しい DataFrame を作成する方法

sparkR では、DataFrame として持っdataています。data次のように 1 つのエントリを添付できます。

どうすれば複数添付できますか?
ベクター内のすべての要素をアタッチしたい場合、list <- c(1,6,10,11,14)またはlistDataFrame の場合とします1 6 10 11 14

このようにすると、エラーが発生します。

0 投票する
0 に答える
743 参照

apache-spark - saveAsTable コマンドを使用して HiveContext で sparkR データフレームを保存します

saveAsTable コマンドを使用して HiveContext を操作するときに sparkR データ フレームを保存する方法

をハイブ テーブルsaveAsTable(df, tableName, source, mode, ...)に保存するために使用する方法。df_5(data frame)Report02_cashier_hourly