いくつかの「カスタム基準」/あいまい一致、たとえば数値または日付の範囲/間隔、および文字列のレーベンシュタインなどのさまざまな「距離方法」を使用して、(複数のフィールドで) 2 つ(Pair)RDD
の s (またはDataset
s/ s)を結合することは可能ですか?DataFrame
内で「グループ化」してRDD
を取得するPairRDD
には、 を実装できますが、2 つの s/data セットPairFunction
を結合する場合、同様のことはできないようです。RDD
私は次のようなことを考えています:
rdd1.join(rdd2, myCustomJoinFunction);
hashCode()
カスタム ロジックをandに実装することを考えていましたequals()
が、「類似の」データを同じバケットにまとめる方法がわかりません。私も調べてRDD.cogroup()
いますが、これを使用してこれを実装する方法がわかりません。
私はちょうどelasticsearch-hadoopに出くわしました。そのライブラリを使用してこのようなことを行うことができるかどうかは誰にもわかりませんか?
Apache Spark 2.0.0 を使用しています。私は Java で実装していますが、Scala での回答も非常に役立ちます。
PS。これは私の最初の Stackoverflow の質問なので、初心者の間違いを犯した場合はご容赦ください:)。