問題タブ [apache-apex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - ローカル ファイル システムから HDFS にファイルを移動するための Hadoop ツール
共有ネットワーク ドライブから HDFS にデータをインポートする方法について POC を行っています。データは共有ドライブの異なるフォルダーにあり、各フォルダーは HDFS の異なるディレクトリに対応します。これを行う一般的なツールをいくつか調べましたが、それらのほとんどは、ファイル全体ではなく、小さなデータを移動するためのものです。これらは私が見つけたツールです。他に何かありますか?
Apache Flume:データを生成する運用サーバーが少数しかなく、データをリアルタイムで書き出す必要がない場合は、Web HDFS または NFS 経由でデータを HDFS に移動することも理にかなっています。書き出されるデータの量は比較的少なく、数時間ごとに数 GB のいくつかのファイルが HDFS に影響を与えることはありません。この場合、Flume を計画、構成、およびデプロイする価値はありません。Flume は実際にはリアルタイムでイベントをプッシュすることを目的としており、データのストリームは継続的であり、その量はかなり大きいです。【サファリオンラインのFlume bookとflumeクックブック】
Apache Kafka: Producer-consumer モデル : メッセージはディスク上に保持され、クラスター内でレプリケートされてデータの損失を防ぎます。各ブローカーは、パフォーマンスに影響を与えずに数テラバイトのメッセージを処理できます。
Amazon Kinesis: Flume のようなリアルタイム データの有料バージョン
WEB HDFS:リダイレクトを自動的にたどったり、ファイル データを送信したりせずに、HTTP PUT 要求を送信します。書き込むファイル データを含む Location ヘッダーの URL を使用して、別の HTTP PUT 要求を送信します。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]
オープン ソース プロジェクト: https://github.com/alexholmes/hdfs-file-slurper
私の要件は簡単です:
- ファイルのディレクトリをポーリングし、ファイルが来たら、それを HDFS にコピーし、ファイルを「処理済み」ディレクトリに移動します。
- 複数のディレクトリに対してこれを行う必要があります
hadoop - 例を使って DataTorrent を理解する
私はDataTorrentに取り組み、記事やドキュメントを探しています。演算子とは何か、データの処理にどのように使用されるか、演算子で使用されている MALHAR ライブラリについての詳細なドキュメントを見つけることができませんでした (この部分についてはわかりません)。参考文献を提案して、DataTorrent について理解するのを手伝ってくれる人はいますか?
apache-spark - Apache Spark と Apache Apex の違いは何ですか?
Apache Apex - オープン ソースのエンタープライズ グレードの統合ストリームおよびバッチ処理プラットフォームです。IOT 向けの GE Predix プラットフォームで使用されます。これら 2 つのプラットフォームの主な違いは何ですか?
質問
- データ サイエンスの観点から、Spark との違いは何ですか?
- Apache Apex は Spark MLlib のような機能を提供しますか? Apache apex でスケーラブルな ML モデルを構築する必要がある場合、その方法と使用する言語は?
- データ サイエンティストは、スケーラブルな ML モデルを構築するために Java を学ぶ必要がありますか? pyspark のような python API はありますか?
- Apache Apex は Spark と統合できますか? また、Apex の上で Spark MLlib を使用して ML モデルを構築できますか?
json - Apache Apex で JSON を使用して DAG を作成するにはどうすればよいですか?
JSON を使用して DAG インスタンスを作成するためのドキュメントを探しています。形式に関する正式なドキュメントはどこかにありますか?
hadoop - Apache Apex 最小開発環境
Apex アプリケーションを開発およびテストするために最低限必要な環境は何ですか?
で実行しEclipse
、Apex アーキタイプを使用してプロジェクトをWindows
生成し、作成されたデフォルトのテストを実行しようとしましたが、次のエラーが発生しました。Apex
JUnit
2016-04-05 13:00:02,677 [メイン] DEBUG physical.PhysicalPlan initCheckpoint - アクティベーション チェックポイントの書き込み {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] エラー util.Shell getWinUtilsPath - Hadoop バイナリ パスで winutils バイナリを見つけられませんでした java.io.IOException: Hadoop バイナリで実行可能な null\bin\winutils.exe を見つけられませんでした。org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) で org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) で org.apache.hadoop.util.Shell.( Shell.java:293) org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) で org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305) で
開発環境を稼働させるために他に何をインストールする必要がありますか? Hadoop
このような JUnit テストには必要ですか?
hadoop - Apache Apex での順不同の処理
apache-apexのドキュメントには、プロセッサ内のイベントの順序は (イベントの発行方法に基づいて) 保持されると記載されていますが、それは、イベントの順不同の処理を可能にするイベント時間の概念がないということですか?
さらに、イベントの内容に基づいて、イベントの優先順位を変更することもできます。たとえば、イベントに特別なフレーズ (セキュリティ コンテキストの AUTH など) が含まれている場合などです。NiFi はこれを可能にします。これは、帯域幅が制限されている状況で役立ちます。
hadoop - Apache Apex は HDFS に依存していますか、それとも独自のファイル システムを持っていますか?
Apache Apex が Hadoop と YARN で実行されることを理解しています。データ損失から保護するために、永続性とレプリケーションに HDFS を利用していますか? それとも独自のものを持っていますか?
apache-storm - Apache Apex は Apache Storm とどう違うのですか?
Apache ApexはApache Stormに似ています。
- ユーザーは、両方のプラットフォームで有向非巡回グラフ (DAG) としてアプリケーション/トポロジを構築します。Apex はオペレーター/ストリームを使用し、Storm はスパウト/ストリーム/ボルトを使用します。
- どちらも、バッチ処理ではなくリアルタイムでデータを処理します。
- どちらもスループットが高く、レイテンシが低いようです
一見すると、どちらも似ているように見えますが、私には違いがよくわかりません。主な違いは何ですか?言い換えれば、いつ一方を他方の代わりに使用する必要がありますか?
apache-kafka - Apache Apex で Kafka 0.9 オペレーターを単体テストする方法は?
users@apex.incubator.apache.org からの再投稿
バージョン 0.9 プロトコルをサポートする新しい Kafka Operator を使用して単体テスト コードを実行したいと考えています。
このプロセスでは、Malhar-Kafka ライブラリ バージョン ( 3.3.1-incubating ) を含め、Apex エンジン (バージョン 3.3.0 ) をテスト/提供として使用しています。
コンパイルは正常に動作しますが、" java.lang.ClassNotFoundException: com.datatorrent.lib.util.KryoCloneUtils" 例外で単体テストが正しく実行されません。
Apex エンジンと統合された Kafka 0.9 オペレーターを使用する単体テストを実行するための推奨される方法は何ですか? Malhar-contrib ライブラリーの Kafka オペレーターは 0.9 に準拠していないと想定しています..
単体テスト コードは次のようになります。
クラス CassandraEventDetailsStreamingApp は、以下のコード スニペットで AbstractKafkaInputOperator を拡張します。
メソッド lma.getController(); で例外が発生します。