問題タブ [apache-flink]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6165 問題

0 投票する

1 に答える

627 参照

scala - ApacheFlink での DataSet の結合

Flink でSeq[DataSet(Long,Long,Double)]a を singleに結合しようとしています:DataSet[(Long,Long,Double)]

グラフは通常の scala コレクションですが、DataSet に変換できます。results はであり、DataSet[Vector]収集すべきではなく、neighbors メソッドで必要とされます

私は常に FlinkRuntime Exeption を受け取ります:

現在、64 を超える出力を持つノードを処理できません。org.apache.flink.optimizer.CompilerException: 現在、64 を超える出力を持つノードを処理できません。org.apache.flink.optimizer.dag.OptimizerNode.addOutgoingConnection(OptimizerNode.java:347) で org.apache.flink.optimizer.dag.SingleInputNode.setInput(SingleInputNode.java:202) で

2015-07-24T17:11:03.857

0 投票する

1 に答える

2316 参照

java - Maven ビルドにパッケージリンクがありません

Maven の使用に問題があります。Apache Flink プロジェクトがあり、サーバーで実行したいと考えていました。ローカルでは正常に実行されますが、サーバーでは次のエラーで中止されます。

私のJavaプロジェクトでは、クラスをインポートしました

そして、インポート時に正しいクラスを使用しました:

ビルド後、Jar ファイルを調べました。次のクラスが含まれていました。

/util/ フォルダーが完全に欠落しています。pom ファイルの依存関係セクションは次のようになります。

https://github.com/apache/flink/tree/release-0.9にあるリポジトリのパッケージ構成を見たとき、次の行を flink に追加できると思いました:

しかし、これらの依存関係は解決できません。クリーンインストールの実行時に Maven はエラーをスローしないため、これは依存関係の問題だと思います。Maven には、使用されているすべてのインポートが自動的に含まれると思いました。これを自分のサーバーで実行可能にするにはどうすればよいですか?

java maven intellij-idea apache-flink

2015-07-27T19:44:53.047

0 投票する

1 に答える

584 参照

java - Apache Flink でデータセットの開始位置を定義するには?

Apache Flink に一種のウィンドウ関数を実装しようとしています。たとえば、要素 1 ～ 5 を取得して何かを行いたいとします。その後、要素 6 ～ 10 を取得したいとします。

現在、データが CSV ファイルによって導出されるデータセットがあります。

ここで、このデータセットの最初の 5 つの要素を含むサブセットが必要です。-関数でこれを行うことができるかもしれませんfirst：

しかし、次の 5 つの要素を取得するにはどうすればよいでしょうか。私が使用できる関数のような関数はありstartAtますか？たとえば、次のようなものです。

Apache Flink Java API には何も見つかりませんでした。これをアーカイブする最良の方法は何ですか?

java apache-flink

2015-08-02T13:11:34.310

0 投票する

2 に答える

470 参照

hadoop - Hadoop での分散ファイル処理?

圧縮された tar ファイルが多数あり、各 tar 自体に複数のファイルが含まれています。これらのファイルを抽出し、hadoop または同様の手法を使用して処理を高速化したいと考えています。この種の問題のためのツールはありますか？私の知る限り、hadoop や、spark や flink などの同様のフレームワークは、ファイルを直接使用せず、ファイルシステムに直接アクセスすることもできません。また、抽出したファイルの基本的な名前を変更し、適切なディレクトリに移動したいと考えています。

すべての tar ファイルのリストを作成するソリューションをイメージできます。次に、このリストがマッパーに渡され、1 つのマッパーがリストから 1 つのファイルを抽出します。これは合理的なアプローチですか？

hadoop apache-spark batch-processing apache-flink

2015-08-05T08:19:01.533

0 投票する

1 に答える

1025 参照

apache-flink - DataStream API にカスタムオペレータを追加する方法

2 つの入力ストリームを持ち、各ストリームから項目を取得して両方を同時に処理する演算子 (結合など) を実装したいと考えています。さらに、両方の入力のいずれかにデータがない場合、オペレーターはブロックして待機します。

これを行う必要がある場合、どのクラスが関係していますか? それについてのチュートリアルははるかに優れています。どんな提案でもいただければ幸いです！

apache-flink

2015-08-07T02:32:04.343

0 投票する

1 に答える

628 参照

java - RDD に配列を格納する効率的な方法

型配列を RDD に格納する必要があります。このために、Hadoop のArrayWritableクラスを使用します。

動作しますが、必要がない場合はオブジェクトがシリアル化されないようにしたいと思います。できるだけ記憶に残しておきたいと思います。Spark と Flink は、データをメモリに保持すると主張しています。ArrayWritable クラスの場合でしょうか。これは配列を格納する効率的な方法ですか? ありがとう！

編集： @ mattinbitsの回答から、Sparkの場合、効率的な方法はJava配列またはArrayListを使用することです（動的にサイズ変更するため）

java hadoop apache-spark rdd apache-flink

2015-08-10T12:42:16.237

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-flink]

scala - ApacheFlink での DataSet の結合

java - Maven ビルドにパッケージ リンクがありません

java - Apache Flink でデータセットの開始位置を定義するには?

hadoop - Hadoop での分散ファイル処理?

apache-flink - DataStream API にカスタム オペレータを追加する方法

java - RDD に配列を格納する効率的な方法

Reference

java - Maven ビルドにパッケージリンクがありません

apache-flink - DataStream API にカスタムオペレータを追加する方法