問題タブ [sparkr]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 問題

0 投票する

2 に答える

5821 参照

r - SparkR で null エントリを処理する方法

SparkSQL DataFrame があります。

このデータの一部のエントリは空ですが、NULL または NA のようには動作しません。どうすればそれらを削除できますか? 何か案は？

RI ではそれらを簡単に削除できますが、sparkR では S4 システム/メソッドに問題があると言われています。

ありがとう。

r apache-spark sparkr apache-spark-1.4

2015-07-23T21:46:37.883

0 投票する

1 に答える

1730 参照

apache-spark - SparkR を Spark クラスターに接続する

マシン 1 でマスターを使用して、10 台のマシン (1 ～ 10) で実行されている Spark クラスターがあります。これらはすべて CentOS 6.4 で実行されます。

sparkR を使用して、jupyterhub インストール (CentOS へのインストールに関する問題のために ubuntu docker 内で実行されている) をクラスターに接続し、spark コンテキストを取得しようとしています。

私が使用しているコードは

私が得る出力は

Spark 1.4.1 を使用しています。Spark クラスターも CDH 5 を実行しています。

jupyterhub インストールは pyspark 経由でクラスターに接続でき、pyspark を使用する python ノートブックがあります。

誰かが私が間違っていることを教えてもらえますか?

apache-spark sparkr

2015-07-24T14:26:36.940

0 投票する

1 に答える

170 参照

apache-spark - sparkR ジョブからのデータのエクスポート

例に似た R スクリプトがあります。ここでは、hdfs からいくつかのデータをロードし、この場合は Parquet ファイルを介して何らかの形で保存します。

クラスターから別の Spark アプリケーションにデータを取得するにはどうすればよいですか? 現在、sbt-thrift をscroogeに置き換えることを除いて、hdfs マスターに接続し、この例に従ってファイルを取得することを検討しています。

Hadoop クラスターに直接接続せずにデータを取得する、より慣用的な方法はありますか? hdfs からデータをコピーすることを検討しましたが、parquet は私が理解していることから Hadoop からしか読み取ることができません。

apache-spark sparkr

2015-07-24T16:27:28.120

0 投票する

2 に答える

2807 参照

r - SparkR データフレームをサブセット化する方法

ID と Age を 2 x 3 行列として含むデータセット「人」があるとします。

people2sparkR では、18 歳以上のすべての ID を含む新しいデータセットを作成したいと考えています。この場合は ID 1 と 3 です。sparkR ではこれを行います。

しかし、それは機能しません。新しいデータセットをどのように作成しますか?

r apache-spark sparkr

2015-07-25T11:26:23.487

0 投票する

1 に答える

50 参照

r - SparkR から R への保存済みベクターを使用する

sparkR から長いベクトルを保存しました。それを保存して、このベクトルを R で使用したいと考えています。ベクトルは u=c(1,2,3,5,6,9,...) であり、このベクトルをデータセットのエントリとして使用したいと考えています: data[ u,] どうすればこれを行うことができますか?

r apache-spark sparkr

2015-07-28T08:38:50.137

0 投票する

1 に答える

607 参照

r - sparkR 列を使用するには

SparkR Column は、「isNull」などの便利なメソッドの長いリストを提供しますが、sparkR ではそれらの使用に問題があります。このようにRでsparkRを実行します

cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sqlContext

たとえば、この u=c() isNull(u) と入力すると、このメッセージが表示されます (関数 (クラス、fdef、mtable) でエラーが発生しました:署名 '"NULL" の関数 'isNull' の継承されたメソッドが見つかりません)

r sparkr

2015-07-28T10:43:41.123

0 投票する

2 に答える

3488 参照

r - SparkR を使用して特定の行を取得する

タイプ DataFrame の SparkR にデータセット「データ」があります。たとえば、エントリ番号50を取得したい。RIでは単純に入力data[50,]しますが、sparkRでこれを行うと、このメッセージが表示されます

「エラー: タイプ 'S4' のオブジェクトはサブセット化できません」

これを解決するにはどうすればよいですか?

さらに:どうすれば(同じ列サイズの)列をデータに追加できますか?

r apache-spark sparkr

2015-07-28T12:44:04.963

0 投票する

1 に答える

119 参照

r - 関数値を SparkR のファイルに保存する

いくつかの計算値があり、それらを SparkR に保存したいと考えています。

csvファイルとして保存すると

何らかの理由で非常に長い時間がかかります。これを行うより良い方法はありますか？

r sparkr

2015-07-29T09:55:59.880

0 投票する

2 に答える

218 参照

sparkr - sparkR で新しい DataFrame を作成する方法

sparkR では、DataFrame として持っdataています。data次のように 1 つのエントリを添付できます。

どうすれば複数添付できますか?
ベクター内のすべての要素をアタッチしたい場合、list <- c(1,6,10,11,14)またはlistDataFrame の場合とします1 6 10 11 14。

このようにすると、エラーが発生します。

sparkr

2015-07-31T10:08:38.093

0 投票する

0 に答える

743 参照

apache-spark - saveAsTable コマンドを使用して HiveContext で sparkR データフレームを保存します

saveAsTable コマンドを使用して HiveContext を操作するときに sparkR データフレームを保存する方法

をハイブテーブルsaveAsTable(df, tableName, source, mode, ...)に保存するために使用する方法。df_5(data frame)Report02_cashier_hourly

apache-spark dataframe apache-spark-sql sparkr

2015-08-03T06:04:12.350

1 2 3 4 5 6 7 8 9 10

問題タブ [sparkr]

Reference