19

Spark ML トランスフォーマーを使用して、DataFrame各行が次のように表示される場所にたどり着きました。

Row(object_id, text_features_vector, color_features, type_features)

ここtext_featuresで、 は項の重みのスパース ベクトル、color_featuresは小さな 20 要素 (ワンホット エンコーダー) の色の密なベクトルでtype_featuresあり、型のワンホット エンコーダーの密なベクトルでもあります。

これらの機能を 1 つの大きな配列にマージして、2 つのオブジェクト間のコサイン距離などを測定するには、(Spark の機能を使用して) どのようなアプローチがよいでしょうか?

4

1 に答える 1