16

Apache Apex - オープン ソースのエンタープライズ グレードの統合ストリームおよびバッチ処理プラットフォームです。IOT 向けの GE Predix プラットフォームで使用されます。これら 2 つのプラットフォームの主な違いは何ですか?

質問

  1. データ サイエンスの観点から、Spark との違いは何ですか?
  2. Apache Apex は Spark MLlib のような機能を提供しますか? Apache apex でスケーラブルな ML モデルを構築する必要がある場合、その方法と使用する言語は?
  3. データ サイエンティストは、スケーラブルな ML モデルを構築するために Java を学ぶ必要がありますか? pyspark のような python API はありますか?
  4. Apache Apex は Spark と統合できますか? また、Apex の上で Spark MLlib を使用して ML モデルを構築できますか?
4

1 に答える 1

23
  1. Apache Apex は、ストリーミング データを処理するためのエンジンです。同じことを達成しようとする他のいくつかは、Apache storm、Apache flink です。Apache Apex の差別化要因は、フォールト トレランス、スケーラビリティ、および運用ユースケースで重要な考慮事項である操作性へのフォーカスのサポートが組み込まれていることです。

Spark との比較: Apache Spark は実際にはバッチ処理です。Spark ストリーミング (下で Spark を使用) を検討する場合、それはマイクロバッチ処理です。対照的に、Apache apex は真のストリーム処理です。ある意味では、着信レコードは処理のために次のレコードを待つ必要はありません。レコードが処理され、到着するとすぐに次のレベルの処理に送信されます。

  1. 現在、Apache Apex と Apache Samoa、H2O などの機械学習ライブラリとの統合のサポートを追加する作業が進行中ですhttps://issues.apache.org/jira/browse/SAMOA-49を参照してください

  2. 現在、Java、Scala をサポートしています。
    https://www.datatorrent.com/blog/blog-writing-apache-apex-application-in-scala/ Python の場合は、Jython を使用して試すことができます。しかし、私はそれを自分で試していません。だから、それについてはよくわかりません。

  3. 2 つの異なる処理エンジンであることを考えると、Spark との統合はお勧めできません。ただし、機械学習ライブラリとの Apache apex の統合は進行中です。

その他の質問や機能のリクエストがある場合は、apache apex ユーザー向けのメーリング リストに投稿できます: https://mail-archives.apache.org/mod_mbox/incubator-apex-users/

于 2016-02-24T06:35:41.277 に答える