Spark ML トランスフォーマーを使用して、DataFrame各行が次のように表示される場所にたどり着きました。
Row(object_id, text_features_vector, color_features, type_features)
ここtext_featuresで、 は項の重みのスパース ベクトル、color_featuresは小さな 20 要素 (ワンホット エンコーダー) の色の密なベクトルでtype_featuresあり、型のワンホット エンコーダーの密なベクトルでもあります。
これらの機能を 1 つの大きな配列にマージして、2 つのオブジェクト間のコサイン距離などを測定するには、(Spark の機能を使用して) どのようなアプローチがよいでしょうか?