問題タブ [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark SQL はデータソースから動的に最大値と最小値を取得します
Oracle テーブル (1800k 以上のレコードで構成されている) から毎日データ全体を取得したい Spark SQL を使用しています。Oracle から読み取るとアプリケーションがハングアップするため、partitionColumn,lowerBound & upperBoundの概念を使用しました。しかし、問題は、主キー列のlowerBoundとupperBoundの値を動的に取得するにはどうすればよいですか?? lowerBound と upperBound の値は毎日変化します。したがって、主キー列の境界値を動的に取得するにはどうすればよいですか?? 私の問題のサンプル例を教えてくれる人はいますか?
java - spark javaでRDD文字列(xml形式)をデータフレームに変換するには?
xml データがファイルで利用可能な場合、以下のリンクで利用できる適切なソリューション https://github.com/databricks/spark-xml
以下のコードは、物理ファイルをロードして xml を DataSet に変換します。
しかし、JavaRdd で xml データが利用可能な場合、データセットに変換する方法は?
streaming - Zeppelin 6.5 + 構造化ストリーミング 2.0.2 用の Apache Kafka コネクタ
Spark の構造化ストリーミングの例と Kafka コネクタを含む zeppelin ノートブックを実行しようとしています。
ここに私の環境があります:
私のツェッペリンノートブックのコードは次のとおりです。
ノートブックを実行すると、次のエラーが表示されます。
import org.apache.spark.sql.functions.{explode, split} java.lang.ClassNotFoundException: データ ソースが見つかりませんでした: kafka。https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projectsでパッケージを見つけて ください。 org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148) で org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:79) で org .apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:79) org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:218) org.apache.spark で.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:80) at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:80) at org.apache.spark.sql .execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30) at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:124) ... 86 省略原因: java.lang.ClassNotFoundException :カフカ。DefaultSource の scala.reflect.internal.util.AbstractFileClassLoader.findClass(AbstractFileClassLoader.scala:62) の java.lang.ClassLoader.loadClass(ClassLoader.java:424) の java.lang.ClassLoader.loadClass(ClassLoader.java:357) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で org.apache.spark.sql.execution.datasources.DataSource$$anonfun で$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192)132) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192) )132) org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132) で scala.util.Try$.apply(Try.scala:192) )
ヘルプアドバイスをいただければ幸いです。
thnx
python-2.7 - map reduce の Reduce 関数の動作について混乱しています
Python を使用した Spark での次の map reduce の演習で問題が発生しています。私の map 関数は次の RDD を返します。
rdd = [(3, ({0: [2], 1: [5], 3: [1]}, set([2]))),
(3, ({0: [4], 1: [ 3], 3: [5]}, set([1]))),
(1, ({0: [4, 5], 1: [2]}, セット([3)))]
同じキーを持つタプルでいくつかの計算を行うことになっているレデューサー関数を作成しました (前の例では、最初の 2 つのキー = 3 で、最後のキーは 1 です)。
問題は、k と v が常に同じキー (つまりk[0]==v[0]
) を持つことを期待していることです。しかし、このコードには当てはまりません。
私は Databricks プラットフォームに取り組んでいますが、正直なところ、デバッグできないことは悪夢であり、「印刷」が機能しないこともあります。この環境で仕事をするのは本当にイライラします。
tableau-api - Tableau を Databricks Spark クラスターに接続する方法は?
Databricks Spark クラスターを活用してデータ分析作業を行い、Tableau デスクトップをそれに接続してデータを視覚化したいと考えています。経験があり、ここで共有できる人はいますか? どうもありがとうございました。