nlp - word2vec を使用してユーザー間の類似度を計算する

Question

最近、word2vec というツールの存在を知りました。私の現在の仕事では、特定のユーザーに似ているユーザーを見つける必要があります。単一のユーザーには、年齢、資格、機関/組織、既知の言語、特定のタグのリストなどのエンティティが関連付けられています。これらのエンティティ/列のそれぞれをユーザーの単語のランダムなチャンクと見なす場合、それに対応してそのユーザーのベクトル値を計算し、これらの値を使用してユーザー間の類似性を推測できますか? ウィキトレーニングベクトルは意味のある結果を得るのに役立ちますか?それを行う他の方法はありますか?

score 4 · Accepted Answer

必要なのは、単純な教師なし (または半教師あり) クラスタリングアルゴリズムです。事前に訓練されたベクトルを備えた word2vec は、機関などが含まれる可能性が低いため、あまり役に立たない可能性があります。

また、ユーザーの「側面」の数が少ないように思われるため、ベクトル空間の各次元がこれらの側面 (年齢、資格、組織など) の 1 つであるベクトル表現でクラスタリングアルゴリズムを使用するだけで済みます。 .

ユーザーの類似性にこれらの側面の類似性を反映させたい場合 (完全な平等ではなく)、word2vec のような連続空間モデルが役立ちます。

たとえば、「Python エキスパート」という資格を「スクリプトエキスパート」に近いものとして測定したい場合は、word2vec を選びます。しかし、あらかじめ定義された有限数の側面の間で完全に一致するものを探している場合は、単純なクラスタリングアルゴリズムを使用してください。

PS このトピックに関するより詳細な Q&A はCross Validatedにあります。

nlp - word2vec を使用してユーザー間の類似度を計算する

1 に答える 1

Related

Reference