12

Apache Spark と比較して、Apache Spark2 がもたらす改善点は何ですか?

  1. アーキテクチャの観点から
  2. アプリケーションの観点から
  3. 以上
4

2 に答える 2

11

Apache Spark 2.0.0 API は 1.X とほぼ同じままであり、Spark 2.0.0 には API 破壊的変更があります

Apache Spark 2.0.0は、2.x ラインの最初のリリースです。主な更新は、API の使いやすさ、SQL 2003 のサポート、パフォーマンスの向上、構造化ストリーミング、R UDF のサポート、および操作の改善です。

スパーク 2 の新機能:

  • 私が確認できる最大の変更点は、DataSet API と DataFrame API が統合されることです。
  • Spark の最新かつ最高のものは、前任者と比較して非常に効率的です。Spark 2.0 は、より優れたスループットを達成するために、Parquet とキャッシングの組み合わせに焦点を当てる予定です。
  • 構造化ストリーミングは、もう 1 つの重要な機能です。
  • これは、ETL に焦点を当てた最初のバージョンになります。後続のバージョンでは、ETL のオペレーターとライブラリーがさらに追加されます

次の点の更新が説明されているSpark リリース 2.0.0を確認できます。

  • 原薬の安定性
  • コアおよびスパーク SQL
  • MLlib
  • SparkR
  • ストリーミング
  • 依存関係、パッケージング、および操作
  • 削除、動作の変更、非推奨
  • 既知の問題点
于 2016-10-21T05:46:00.037 に答える
5

一言で言えば、DAG と RDD は依然として最も重要な部分であるため、アーキテクチャに関して大きな違いはありません。

ただし、Spark 2.0 はより最適化されており、DataSet Api を備えているため、開発者の手にはるかに強力です。つまり、アーキテクチャは同じで、Spark 2.0 が最適化され、豊富な API セットを提供するだけです。

これらは、Apache Spark 2.0 によって提供される主なものです。

  • 私が確認できる最大の変更点は、DataSet API と DataFrame API が統合されることです。
  • Spark の最新かつ最高のものは、前任者と比較して非常に効率的です。Spark 2.0 は、より優れたスループットを達成するために、Parquet とキャッシングの組み合わせに焦点を当てる予定です。
  • 構造化ストリーミングは、もう 1 つの重要な機能です。
  • これは、ETL に焦点を当てた最初のバージョンになります。後続のバージョンでは、ETL のオペレーターとライブラリーがさらに追加されます

詳細については、こちらをご覧ください: https://www.quora.com/What-are-special-features-and-advantages-of-Apache-Spark-2-0-over-earlier-versions

于 2016-10-21T05:24:36.700 に答える