問題タブ [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - SparkR で null エントリを処理する方法
SparkSQL DataFrame があります。
このデータの一部のエントリは空ですが、NULL または NA のようには動作しません。どうすればそれらを削除できますか? 何か案は?
RI ではそれらを簡単に削除できますが、sparkR では S4 システム/メソッドに問題があると言われています。
ありがとう。
apache-spark - SparkR を Spark クラスターに接続する
マシン 1 でマスターを使用して、10 台のマシン (1 ~ 10) で実行されている Spark クラスターがあります。これらはすべて CentOS 6.4 で実行されます。
sparkR を使用して、jupyterhub インストール (CentOS へのインストールに関する問題のために ubuntu docker 内で実行されている) をクラスターに接続し、spark コンテキストを取得しようとしています。
私が使用しているコードは
私が得る出力は
Spark 1.4.1 を使用しています。Spark クラスターも CDH 5 を実行しています。
jupyterhub インストールは pyspark 経由でクラスターに接続でき、pyspark を使用する python ノートブックがあります。
誰かが私が間違っていることを教えてもらえますか?
apache-spark - sparkR ジョブからのデータのエクスポート
例に似た R スクリプトがあります。ここでは、hdfs からいくつかのデータをロードし、この場合は Parquet ファイルを介して何らかの形で保存します。
クラスターから別の Spark アプリケーションにデータを取得するにはどうすればよいですか? 現在、sbt-thrift をscroogeに置き換えることを除いて 、hdfs マスターに接続し、この例に従ってファイルを取得することを検討しています。
Hadoop クラスターに直接接続せずにデータを取得する、より慣用的な方法はありますか? hdfs からデータをコピーすることを検討しましたが、parquet は私が理解していることから Hadoop からしか読み取ることができません。
r - SparkR データ フレームをサブセット化する方法
ID と Age を 2 x 3 行列として含むデータセット「人」があるとします。
people2
sparkR では、18 歳以上のすべての ID を含む新しいデータセットを作成したいと考えています。この場合は ID 1 と 3 です。sparkR ではこれを行います。
しかし、それは機能しません。新しいデータセットをどのように作成しますか?
r - SparkR から R への保存済みベクターを使用する
sparkR から長いベクトルを保存しました。それを保存して、このベクトルを R で使用したいと考えています。ベクトルは u=c(1,2,3,5,6,9,...) であり、このベクトルをデータセットのエントリとして使用したいと考えています: data[ u,] どうすればこれを行うことができますか?
r - sparkR 列を使用するには
SparkR Column は、「isNull」などの便利なメソッドの長いリストを提供しますが、sparkR ではそれらの使用に問題があります。このようにRでsparkRを実行します
cd /home/ole/R/spark-1.4.0 ./bin/sparkR --packages com.databricks:spark-csv_2.10:1.0.3 sqlContext
たとえば、この u=c() isNull(u) と入力すると、このメッセージが表示されます (関数 (クラス、fdef、mtable) でエラーが発生しました:署名 '"NULL" の関数 'isNull' の継承されたメソッドが見つかりません)
r - SparkR を使用して特定の行を取得する
タイプ DataFrame の SparkR にデータセット「データ」があります。たとえば、エントリ番号50を取得したい。RIでは単純に入力data[50,]
しますが、sparkRでこれを行うと、このメッセージが表示されます
「エラー: タイプ 'S4' のオブジェクトはサブセット化できません」
これを解決するにはどうすればよいですか?
さらに:どうすれば(同じ列サイズの)列をデータに追加できますか?
r - 関数値を SparkR のファイルに保存する
いくつかの計算値があり、それらを SparkR に保存したいと考えています。
csvファイルとして保存すると
何らかの理由で非常に長い時間がかかります。これを行うより良い方法はありますか?
sparkr - sparkR で新しい DataFrame を作成する方法
sparkR では、DataFrame として持っdata
ています。data
次のように 1 つのエントリを添付できます。
どうすれば複数添付できますか?
ベクター内のすべての要素をアタッチしたい場合、list <- c(1,6,10,11,14)
またはlist
DataFrame の場合とします1 6 10 11 14
。
このようにすると、エラーが発生します。
apache-spark - saveAsTable コマンドを使用して HiveContext で sparkR データフレームを保存します
saveAsTable コマンドを使用して HiveContext を操作するときに sparkR データ フレームを保存する方法
をハイブ テーブルsaveAsTable(df, tableName, source, mode, ...)
に保存するために使用する方法。df_5(data frame)
Report02_cashier_hourly