“apache-apex”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

5379 参照

hadoop - ローカルファイルシステムから HDFS にファイルを移動するための Hadoop ツール

共有ネットワークドライブから HDFS にデータをインポートする方法について POC を行っています。データは共有ドライブの異なるフォルダーにあり、各フォルダーは HDFS の異なるディレクトリに対応します。これを行う一般的なツールをいくつか調べましたが、それらのほとんどは、ファイル全体ではなく、小さなデータを移動するためのものです。これらは私が見つけたツールです。他に何かありますか?

Apache Flume:データを生成する運用サーバーが少数しかなく、データをリアルタイムで書き出す必要がない場合は、Web HDFS または NFS 経由でデータを HDFS に移動することも理にかなっています。書き出されるデータの量は比較的少なく、数時間ごとに数 GB のいくつかのファイルが HDFS に影響を与えることはありません。この場合、Flume を計画、構成、およびデプロイする価値はありません。Flume は実際にはリアルタイムでイベントをプッシュすることを目的としており、データのストリームは継続的であり、その量はかなり大きいです。【サファリオンラインのFlume bookとflumeクックブック】

Apache Kafka: Producer-consumer モデル : メッセージはディスク上に保持され、クラスター内でレプリケートされてデータの損失を防ぎます。各ブローカーは、パフォーマンスに影響を与えずに数テラバイトのメッセージを処理できます。

Amazon Kinesis: Flume のようなリアルタイムデータの有料バージョン

WEB HDFS:リダイレクトを自動的にたどったり、ファイルデータを送信したりせずに、HTTP PUT 要求を送信します。書き込むファイルデータを含む Location ヘッダーの URL を使用して、別の HTTP PUT 要求を送信します。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

オープンソースプロジェクト: https://github.com/alexholmes/hdfs-file-slurper

私の要件は簡単です：

ファイルのディレクトリをポーリングし、ファイルが来たら、それを HDFS にコピーし、ファイルを「処理済み」ディレクトリに移動します。
複数のディレクトリに対してこれを行う必要があります

2014-08-12T00:24:36.000

0 投票する

2 に答える

330 参照

hadoop - 例を使って DataTorrent を理解する

私はDataTorrentに取り組み、記事やドキュメントを探しています。演算子とは何か、データの処理にどのように使用されるか、演算子で使用されている MALHAR ライブラリについての詳細なドキュメントを見つけることができませんでした (この部分についてはわかりません)。参考文献を提案して、DataTorrent について理解するのを手伝ってくれる人はいますか?

hadoop bigdata hadoop-yarn hadoop-streaming apache-apex

2015-05-26T17:06:22.043

0 投票する

1 に答える

8082 参照

apache-spark - Apache Spark と Apache Apex の違いは何ですか?

Apache Apex - オープンソースのエンタープライズグレードの統合ストリームおよびバッチ処理プラットフォームです。IOT 向けの GE Predix プラットフォームで使用されます。これら 2 つのプラットフォームの主な違いは何ですか?

質問

データサイエンスの観点から、Spark との違いは何ですか?
Apache Apex は Spark MLlib のような機能を提供しますか? Apache apex でスケーラブルな ML モデルを構築する必要がある場合、その方法と使用する言語は?
データサイエンティストは、スケーラブルな ML モデルを構築するために Java を学ぶ必要がありますか? pyspark のような python API はありますか?
Apache Apex は Spark と統合できますか? また、Apex の上で Spark MLlib を使用して ML モデルを構築できますか?

apache-spark machine-learning pyspark stream-processing apache-apex

2016-02-23T14:11:00.190

0 投票する

1 に答える

319 参照

json - Apache Apex で JSON を使用して DAG を作成するにはどうすればよいですか?

JSON を使用して DAG インスタンスを作成するためのドキュメントを探しています。形式に関する正式なドキュメントはどこかにありますか?

json stream-processing apache-apex

user6147934

2016-04-07T21:39:49.470

0 投票する

1 に答える

106 参照

hadoop - Apache Apex 最小開発環境

Apex アプリケーションを開発およびテストするために最低限必要な環境は何ですか?

で実行しEclipse、Apex アーキタイプを使用してプロジェクトをWindows生成し、作成されたデフォルトのテストを実行しようとしましたが、次のエラーが発生しました。ApexJUnit

2016-04-05 13:00:02,677 [メイン] DEBUG physical.PhysicalPlan initCheckpoint - アクティベーションチェックポイントの書き込み {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] エラー util.Shell getWinUtilsPath - Hadoop バイナリパスで winutils バイナリを見つけられませんでした java.io.IOException: Hadoop バイナリで実行可能な null\bin\winutils.exe を見つけられませんでした。org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) で org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) で org.apache.hadoop.util.Shell.( Shell.java:293) org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) で org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305) で

開発環境を稼働させるために他に何をインストールする必要がありますか? Hadoopこのような JUnit テストには必要ですか?

hadoop stream-processing apache-apex

2016-04-07T22:11:34.257

0 投票する

1 に答える

208 参照

hadoop - Apache Apex での順不同の処理

apache-apexのドキュメントには、プロセッサ内のイベントの順序は (イベントの発行方法に基づいて) 保持されると記載されていますが、それは、イベントの順不同の処理を可能にするイベント時間の概念がないということですか?

さらに、イベントの内容に基づいて、イベントの優先順位を変更することもできます。たとえば、イベントに特別なフレーズ (セキュリティコンテキストの AUTH など) が含まれている場合などです。NiFi はこれを可能にします。これは、帯域幅が制限されている状況で役立ちます。

hadoop stream-processing apache-apex

2016-04-08T06:09:20.937

0 投票する

2 に答える

222 参照

hadoop - Apache Apex は HDFS に依存していますか、それとも独自のファイルシステムを持っていますか?

Apache Apex が Hadoop と YARN で実行されることを理解しています。データ損失から保護するために、永続性とレプリケーションに HDFS を利用していますか? それとも独自のものを持っていますか？

hadoop apache-apex bigdata

user6147934

2016-04-12T06:58:09.227

0 投票する

2 に答える

1291 参照

apache-storm - Apache Apex は Apache Storm とどう違うのですか?

Apache Apexは Apache Stormに似ています。

ユーザーは、両方のプラットフォームで有向非巡回グラフ (DAG) としてアプリケーション/トポロジを構築します。Apex はオペレーター/ストリームを使用し、Storm はスパウト/ストリーム/ボルトを使用します。
どちらも、バッチ処理ではなくリアルタイムでデータを処理します。
どちらもスループットが高く、レイテンシが低いようです

一見すると、どちらも似ているように見えますが、私には違いがよくわかりません。主な違いは何ですか？言い換えれば、いつ一方を他方の代わりに使用する必要がありますか?

apache-storm stream-processing apache-apex bigdata

2016-04-14T07:09:06.523

0 投票する

1 に答える

146 参照

apache-kafka - Apache Apex で Kafka 0.9 オペレーターを単体テストする方法は?

users@apex.incubator.apache.org からの再投稿

バージョン 0.9 プロトコルをサポートする新しい Kafka Operator を使用して単体テストコードを実行したいと考えています。

このプロセスでは、Malhar-Kafka ライブラリバージョン ( 3.3.1-incubating ) を含め、Apex エンジン (バージョン 3.3.0 ) をテスト/提供として使用しています。

コンパイルは正常に動作しますが、" java.lang.ClassNotFoundException: com.datatorrent.lib.util.KryoCloneUtils" 例外で単体テストが正しく実行されません。

Apex エンジンと統合された Kafka 0.9 オペレーターを使用する単体テストを実行するための推奨される方法は何ですか? Malhar-contrib ライブラリーの Kafka オペレーターは 0.9 に準拠していないと想定しています..

単体テストコードは次のようになります。

クラス CassandraEventDetailsStreamingApp は、以下のコードスニペットで AbstractKafkaInputOperator を拡張します。

メソッド lma.getController(); で例外が発生します。

apache-kafka apache-apex

user6147934

2016-04-22T14:56:54.713

問題タブ [apache-apex]

Reference