Spark ML トランスフォーマーを使用して、DataFrame
各行が次のように表示される場所にたどり着きました。
Row(object_id, text_features_vector, color_features, type_features)
ここtext_features
で、 は項の重みのスパース ベクトル、color_features
は小さな 20 要素 (ワンホット エンコーダー) の色の密なベクトルでtype_features
あり、型のワンホット エンコーダーの密なベクトルでもあります。
これらの機能を 1 つの大きな配列にマージして、2 つのオブジェクト間のコサイン距離などを測定するには、(Spark の機能を使用して) どのようなアプローチがよいでしょうか?