問題タブ [databricks]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 問題

0 投票する

1 に答える

1445 参照

apache-spark - Spark SQL はデータソースから動的に最大値と最小値を取得します

Oracle テーブル (1800k 以上のレコードで構成されている) から毎日データ全体を取得したい Spark SQL を使用しています。Oracle から読み取るとアプリケーションがハングアップするため、partitionColumn,lowerBound & upperBoundの概念を使用しました。しかし、問題は、主キー列のlowerBoundとupperBoundの値を動的に取得するにはどうすればよいですか?? lowerBound と upperBound の値は毎日変化します。したがって、主キー列の境界値を動的に取得するにはどうすればよいですか?? 私の問題のサンプル例を教えてくれる人はいますか?

2017-01-03T14:17:57.910

0 投票する

0 に答える

1247 参照

java - spark javaでRDD文字列(xml形式)をデータフレームに変換するには?

xml データがファイルで利用可能な場合、以下のリンクで利用できる適切なソリューション https://github.com/databricks/spark-xml

以下のコードは、物理ファイルをロードして xml を DataSet に変換します。

しかし、JavaRdd で xml データが利用可能な場合、データセットに変換する方法は?

java apache-spark spark-streaming distributed-computing databricks

2017-01-04T06:00:31.147

0 投票する

1 に答える

1868 参照

streaming - Zeppelin 6.5 + 構造化ストリーミング 2.0.2 用の Apache Kafka コネクタ

Spark の構造化ストリーミングの例と Kafka コネクタを含む zeppelin ノートブックを実行しようとしています。

ここに私の環境があります：

私のツェッペリンノートブックのコードは次のとおりです。

ノートブックを実行すると、次のエラーが表示されます。

import org.apache.spark.sql.functions.{explode, split} java.lang.ClassNotFoundException: データソースが見つかりませんでした: kafka。https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projectsでパッケージを見つけてください。 org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148) で org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:79) で org .apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:79) org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:218) org.apache.spark で.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:80) at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:80) at org.apache.spark.sql .execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30) at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:124) ... 86 省略原因: java.lang.ClassNotFoundException ：カフカ。DefaultSource の scala.reflect.internal.util.AbstractFileClassLoader.findClass(AbstractFileClassLoader.scala:62) の java.lang.ClassLoader.loadClass(ClassLoader.java:424) の java.lang.ClassLoader.loadClass(ClassLoader.java:357) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で org.apache.spark.sql.execution.datasources.DataSource$$anonfun で$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192)132) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192) )132) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192) )

ヘルプアドバイスをいただければ幸いです。

thnx

streaming apache-zeppelin apache-spark-2.0 apache-kafka-connect databricks

2017-01-06T16:03:39.703

0 投票する

1 に答える

120 参照

python-2.7 - map reduce の Reduce 関数の動作について混乱しています

Python を使用した Spark での次の map reduce の演習で問題が発生しています。私の map 関数は次の RDD を返します。

rdd = [(3, ({0: [2], 1: [5], 3: [1]}, set([2]))),
(3, ({0: [4], 1: [ 3], 3: [5]}, set([1]))),
(1, ({0: [4, 5], 1: [2]}, セット([3)))]

同じキーを持つタプルでいくつかの計算を行うことになっているレデューサー関数を作成しました (前の例では、最初の 2 つのキー = 3 で、最後のキーは 1 です)。

問題は、k と v が常に同じキー (つまりk[0]==v[0]) を持つことを期待していることです。しかし、このコードには当てはまりません。

私は Databricks プラットフォームに取り組んでいますが、正直なところ、デバッグできないことは悪夢であり、「印刷」が機能しないこともあります。この環境で仕事をするのは本当にイライラします。

python-2.7 apache-spark mapreduce pyspark databricks

2017-01-07T10:35:59.250

0 投票する

1 に答える

1039 参照

tableau-api - Tableau を Databricks Spark クラスターに接続する方法は?

Databricks Spark クラスターを活用してデータ分析作業を行い、Tableau デスクトップをそれに接続してデータを視覚化したいと考えています。経験があり、ここで共有できる人はいますか? どうもありがとうございました。

tableau-api databricks

2017-01-09T03:32:58.167

1 2 3 4 5 6 7 8 9 10

問題タブ [databricks]

apache-spark - Spark SQL はデータソースから動的に最大値と最小値を取得します

java - spark javaでRDD文字列(xml形式)をデータフレームに変換するには?

streaming - Zeppelin 6.5 + 構造化ストリーミング 2.0.2 用の Apache Kafka コネクタ

python-2.7 - map reduce の Reduce 関数の動作について混乱しています

tableau-api - Tableau を Databricks Spark クラスターに接続する方法は?

Reference