2

最近、word2vec というツールの存在を知りました。私の現在の仕事では、特定のユーザーに似ているユーザーを見つける必要があります。単一のユーザーには、年齢、資格、機関/組織、既知の言語、特定のタグのリストなどのエンティティが関連付けられています。これらのエンティティ/列のそれぞれをユーザーの単語のランダムなチャンクと見なす場合、それに対応してそのユーザーのベクトル値を計算し、これらの値を使用してユーザー間の類似性を推測できますか? ウィキ トレーニング ベクトルは意味のある結果を得るのに役立ちますか?それを行う他の方法はありますか?

4

1 に答える 1

4

必要なのは、単純な教師なし (または半教師あり) クラスタリング アルゴリズムです。事前に訓練されたベクトルを備えた word2vec は、機関などが含まれる可能性が低いため、あまり役に立たない可能性があります。

また、ユーザーの「側面」の数が少ないように思われるため、ベクトル空間の各次元がこれらの側面 (年齢、資格、組織など) の 1 つであるベクトル表現でクラスタリング アルゴリズムを使用するだけで済みます。 .

ユーザーの類似性にこれらの側面の類似性を反映させたい場合 (完全な平等ではなく)、word2vec のような連続空間モデルが役立ちます。

たとえば、「Python エキスパート」という資格を「スクリプト エキスパート」に近いものとして測定したい場合は、word2vec を選びます。しかし、あらかじめ定義された有限数の側面の間で完全に一致するものを探している場合は、単純なクラスタリング アルゴリズムを使用してください。

PS このトピックに関するより詳細な Q&A はCross Validatedにあります。

于 2015-05-07T16:34:25.417 に答える