問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - リサイクル サーバーを使用した StreamWritter
spark2 ストリームを介していくつかのデータを処理し、それらを hdfs に保存しようとしています。ストリームの実行中に、単純な選択でリサイクルサーバーを介して保存されたデータを読み取りたい:
しかし、私はこの例外を受けています
エラー: org.apache.spark.SparkException: ステージの失敗によりジョブが中止されました: ステージ 5.0 のタスク 0 が 1 回失敗しました。最近の失敗: ステージ 5.0 でタスク 0.0 が失われました (TID 6、localhost): java.lang.RuntimeException: hdfs ://5b6b8bf723a2:9000/archiveData/parquets/efc44dd4-1792-4b6d-b0f2-120818047b1b は、parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:412) の parquet.hadoop.ParquetFileReader にある (小さすぎる) Parquet ファイルではありません.readFooter(ParquetFileReader.java:385) at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:371) at org.apache.hadoop.hive.ql.io.parquet.read.ParquetRecordReaderWrapper.getSplit(ParquetRecordReaderWrapper.java:252) ) org.apache.hadoop.hive.ql.io.parquet.read.ParquetRecordReaderWrapper.(ParquetRecordReaderWrapper.java:99) org.apache.hadoop.hive.ql.io.parquet.read.ParquetRecordReaderWrapper.(ParquetRecordReaderWrapper.java:85) で org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat.getRecordReader(MapredParquetInputFormat.java) で:72) org.apache.spark.rdd.HadoopRDD$$anon$1 で (HadoopRDD.scala:246) org.apache.spark.rdd.HadoopRDD.compute(HadoopRDD.scala:102) で org.apache.spark .rdd.RDD.iterator(RDD.scala:283)(RDD.scala:319) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:319)scala:38) at org.apache.spark. rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38) org.apache.spark.rdd.RDD.iterator(RDD.scala:283)(RDD.scala:319) org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala:319)scala:38) org.apache.spark.rdd.MapPartitionsRDD で。compute(MapPartitionsRDD.scala:38) at org.apache.spark.rdd.RDD.iterator(RDD.scala:283)(RDD.scala:319) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala) :319)scala:38) org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:79) で org.apache.spark.scheduler.Task.run(Task.scala:85)ShuffleMapTask.scala:47 で) java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) で java.lang.Thread.run(Thread.java:745) または $Worker.run(ThreadPoolExecutor.java:617) でjava.lang.Thread.run(Thread. java:745)or$Worker.run(ThreadPoolExecutor.java:617)java.lang.Thread.run(Thread. java:745)or$Worker.run(ThreadPoolExecutor.java:617)
私の仮定では、スパークはバッチの開始時に空の寄木細工のファイルを作成し、バッチの最後にそれを埋めselect
ます.アーカイブされたファイルを介してAを実行していますが、実際のバッチはまだ終了していないため、1つは空です.
簡単なスパーク ストリームの例 (変換遅延のシミュレーションのための Thread.sleep)
この例外を回避し、thrift サーバーで完成したファイルのみを取得する方法はありますか?
join - Spark 2.0.0 エラー: PartitioningCollection では、すべてのパーティショニングに同じ numPartitions が必要です
Spark でいくつかの DataFrame を結合していますが、次のエラーが発生し続けます。
2 つの DataFrame を結合した後に発生するようですが、それぞれが単独ではかなり合理的ですが、それらを結合した後、結合された DataFrame から行を取得しようとすると、このエラーが発生します。このエラーが表示される理由、またはその背後にある意味を理解しようとしているだけです。これに関するドキュメントが見つからないようです。
次の呼び出しでは、この例外が発生します。
しかし、私は確かに呼び出すことができます
と
また、参加前と参加前、および参加後にorをDataFrames
使用しての再パーティション化を試みましたが、エラーには何も影響しなかったようです。大雑把なグーグル検索の後でエラーが発生した他の個人への参照を見つけることができませんでした...Dataset.repartition(numPartitions)
Dataset.coalesce(numParitions)
dataFrame1
dataFrame2
resultDataFrame
apache-spark - ストリーミング データセットを Spark のバッチ データセットに追加する
データベースから Spark に履歴データをロードし、Spark に新しいストリーミング データを追加し続けたいという Spark のユース ケースがあり、その後、最新のデータセット全体で分析を行うことができます。
私の知る限り、Spark SQL も Spark Streaming も、履歴データをストリーミング データと組み合わせることができません。次に、この問題のために構築されていると思われるSpark 2.0のStructured Streamingを見つけました。しかし、いくつかの実験の後、私はまだそれを理解することができません. ここに私のコードがあります:
「org.apache.spark.sql.AnalysisException: Union between streaming and batch DataFrames/Datasets is not supported;」というエラーが表示されました。2 つのデータセットを union() すると。
誰でも私を助けてもらえますか?私は間違った方向に進んでいますか?
java - Spark 2.0 GROUP BY NULLS
Spark 1.5 から Spark 2.0 へのいくつかのクエリの移行に取り組んでいます
クエリは次のとおりです。
まず第一に、Spark では、null チェックは group by で使用すると機能せずLENGTH()
、値の呼び出しと null チェックが正しく機能することを知っています。
上記のクエリを実行すると、次のエラーが表示されます。
SQL Error: java.lang.IllegalArgumentException: Unrecognized type name: null\"
問題は何ですか?
java - spark mvn compile error.[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile)
「Spark with Machine learning」という本を参照して学習しています
groupId: org.apache.spark artifactId: spark-core_2.11 バージョン: 2.0.1
JavaApp.java
私のpom.xml
そのため、mavenを使用してコードをコンパイルしましたが、以下のエラーメッセージを解決できません
この問題は4日間私を悩ませました。私を助けてください :(
scala - scala のデータ フレームから 2 つの列を追加する
年齢と給与の 2 つの列が DF に格納されています。これらの値を列ごとに追加するためのスカラ コードを書きたいだけです。私は試した
エラーが発生します。助けてください
partitioning - spark2.0.1 - パーティション検出の失敗
パーティション分割されたディレクトリに次の寄木細工のファイルがあります。
spark1.6 では、これらは次のようにアクセスできます。
ただし、spark2.0.1 では、このコードはエラーをスローします。
個々のパーティション ディレクトリは個別に読み取ることができ、統合することもできますが、どのような不一致を探すべきかについて興味があります。
更新: 分割されたディレクトリは、df.where(id=1).write.parquet
たとえばdf.write.partitionBy
. これが問題の根本にあるようです。ただし、以前のバージョンのスパークで読み取り/収集が成功する理由を積極的に判断しようとしています。
更新: 上記の 'id' 列は Long であり、明示的に書き込むと (例: df.write.parquet('/files/dataset/id=1')) 読み取り中にエラーがスローされます。パーティション検出は明らかにパーティションをLong ではなく IntType https://issues.apache.org/jira/browse/SPARK-18108を参照