2

関連するテキストドキュメントをユーザーに提案するために、トピックベースのレコメンダーシステムを考え出そうとしています。

ウィキペディアのコーパスで、gensimを使用して潜在意味索引付けモデルをトレーニングしました。これにより、ドキュメントをLSIトピックディストリビューションに簡単に変換できます。私の考えは、ユーザーを同じように表現することです。ただし、もちろん、ユーザーには記事の閲覧履歴と記事の評価があります。

だから私の質問は:ユーザーをどのように表現するのですか?

私が持っていたアイデアは次のとおりです。表示されたすべてのドキュメントの集合体としてユーザーを表します。しかし、どのように評価を考慮に入れるのですか?

何か案は?

ありがとう

4

2 に答える 2

1

それがlsaで機能しているとは思わない。

ただし、各ユーザーの座標が表示されたドキュメントである、ある種の k-NN 分類を行うこともできます。各オブジェクト (= ユーザー) は放射線を放出します (強度は距離の 2 乗に反比例します)。強度は、単一のドキュメントの評価から計算されます。

次に、オブジェクト (ユーザー) をこの超次元空間に配置し、他のユーザーが最も「光」を与えているものを確認できます。

しかし: Apache Lucene はそのすべてをあなたに代わって行うことはできませんか?

于 2012-10-06T21:29:44.407 に答える
0

「表示されたすべてのドキュメントの集合体としてユーザーを表す」:線形空間にいる場合、これは実際に機能する可能性があります。すべてのドキュメント ベクトルを 1 つの大きなベクトルに簡単に追加できます。

評価を追加したい場合は、単純に係数を合計に入れることができます。

ベクトルD2で評価2、D3で評価3などのすべてのドキュメントをグループ化するとします...次に、ユーザーベクトルをU = c2 * D2 + c3 * D3 +として定義するだけです... c2、c3のさまざまな形式で遊ぶことができます、しかし最も簡単な方法は、単純に評価を掛けて、正規化の理由から最大評価で割ることです。

最大評価が 5 の場合、たとえば c2=2/5、c3=3/5 ... と定義できます。

于 2013-01-29T13:08:48.700 に答える