問題タブ [apache-flink]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - ApacheFlink での DataSet の結合
Flink でSeq[DataSet(Long,Long,Double)]
a を singleに結合しようとしています:DataSet[(Long,Long,Double)]
グラフは通常の scala コレクションですが、DataSet に変換できます。results は であり、DataSet[Vector]
収集すべきではなく、neighbors メソッドで必要とされます
私は常に FlinkRuntime Exeption を受け取ります:
現在、64 を超える出力を持つノードを処理できません。org.apache.flink.optimizer.CompilerException: 現在、64 を超える出力を持つノードを処理できません。org.apache.flink.optimizer.dag.OptimizerNode.addOutgoingConnection(OptimizerNode.java:347) で org.apache.flink.optimizer.dag.SingleInputNode.setInput(SingleInputNode.java:202) で
java - Maven ビルドにパッケージ リンクがありません
Maven の使用に問題があります。Apache Flink プロジェクトがあり、サーバーで実行したいと考えていました。ローカルでは正常に実行されますが、サーバーでは次のエラーで中止されます。
私のJavaプロジェクトでは、クラスをインポートしました
そして、インポート時に正しいクラスを使用しました:
ビルド後、Jar ファイルを調べました。次のクラスが含まれていました。
/util/ フォルダーが完全に欠落しています。pom ファイルの依存関係セクションは次のようになります。
https://github.com/apache/flink/tree/release-0.9にあるリポジトリのパッケージ構成を見たとき、次の行を flink に追加できると思いました:
しかし、これらの依存関係は解決できません。クリーン インストールの実行時に Maven はエラーをスローしないため、これは依存関係の問題だと思います。Maven には、使用されているすべてのインポートが自動的に含まれると思いました。これを自分のサーバーで実行可能にするにはどうすればよいですか?
java - Apache Flink でデータセットの開始位置を定義するには?
Apache Flink に一種のウィンドウ関数を実装しようとしています。たとえば、要素 1 ~ 5 を取得して何かを行いたいとします。その後、要素 6 ~ 10 を取得したいとします。
現在、データが CSV ファイルによって導出されるデータセットがあります。
ここで、このデータセットの最初の 5 つの要素を含むサブセットが必要です。-関数でこれを行うことができるかもしれませんfirst
:
しかし、次の 5 つの要素を取得するにはどうすればよいでしょうか。私が使用できる関数のような関数はありstartAt
ますか?たとえば、次のようなものです。
Apache Flink Java API には何も見つかりませんでした。これをアーカイブする最良の方法は何ですか?
hadoop - Hadoop での分散ファイル処理?
圧縮された tar ファイルが多数あり、各 tar 自体に複数のファイルが含まれています。これらのファイルを抽出し、hadoop または同様の手法を使用して処理を高速化したいと考えています。この種の問題のためのツールはありますか?私の知る限り、hadoop や、spark や flink などの同様のフレームワークは、ファイルを直接使用せず、ファイルシステムに直接アクセスすることもできません。また、抽出したファイルの基本的な名前を変更し、適切なディレクトリに移動したいと考えています。
すべての tar ファイルのリストを作成するソリューションをイメージできます。次に、このリストがマッパーに渡され、1 つのマッパーがリストから 1 つのファイルを抽出します。これは合理的なアプローチですか?
apache-flink - DataStream API にカスタム オペレータを追加する方法
2 つの入力ストリームを持ち、各ストリームから項目を取得して両方を同時に処理する演算子 (結合など) を実装したいと考えています。さらに、両方の入力のいずれかにデータがない場合、オペレーターはブロックして待機します。
これを行う必要がある場合、どのクラスが関係していますか? それについてのチュートリアルははるかに優れています。どんな提案でもいただければ幸いです!
java - RDD に配列を格納する効率的な方法
型配列を RDD に格納する必要があります。このために、Hadoop のArrayWritableクラスを使用します。
動作しますが、必要がない場合はオブジェクトがシリアル化されないようにしたいと思います。できるだけ記憶に残しておきたいと思います。Spark と Flink は、データをメモリに保持すると主張しています。ArrayWritable クラスの場合でしょうか。これは配列を格納する効率的な方法ですか? ありがとう!
編集: @ mattinbitsの回答から、Sparkの場合、効率的な方法はJava配列またはArrayListを使用することです(動的にサイズ変更するため)