私は完全に絶望的です!
私は Java で apache flink を使用していますが、正確な名前ではなく類似性によってキーを設定するために、keyby メソッドを変更できるかどうかを知りたいですか?
2 つの異なる DataStreams があり、ユニオンを実行しています。最初のストリームでは、KeyBy にしたいフィールドの名前は「John Locke」ですが、2 番目のデータストリームではフィールド値は「John L」です。
いくつかの異なる文字列間のスコアを与えるアルゴリズムがあります。私の考えは、たとえば、両方の文字列間のスコアが 0'80 よりも高い場合、これらの 2 つの文字列は同じと見なされ、keyby("name") を適用すると、それらの類似の文字列は正確な同じ名前。
視覚的な例:
datastream1----- ジョン・ロック、ミッキー・ミッキー、ウィル・ウィリアムズ
satastream2----- ミッキー M.、ジョン L.、アンソニー ブラウン
データストリーム d3= datastream1.union(datastream2)
d3.keyは正確な名前ではなく、スコア/類似性によるものです。
ご理解いただければ幸いです。ありがとうございます。