2

私たちのサイトにはユーザー生成コンテンツがあり、ユーザーはハッシュタグを使用してコンテンツを分類できます。コンテンツの検索を容易にするために、次のような「関心」カテゴリを作成することを考えています。

Sex, Hobbies, Current Events, etc.  

これを実現する 1 つの方法は、キーワードを各インタレスト カテゴリに関連付けることです。したがって、ユーザーが Hobbies をクリックすると、システムは Hobbies に関連付けられた次のようなキーワードを検索します。

Hobbies -> cars, cooking, reading, etc.  

ただし、ユーザーは「セクシー」という言葉を本文に含むホットロッドの写真を投稿でき、当社のシステムでは「セクシー」という言葉は「セックス」と「ファッションと美容」の 2 つのインタレスト カテゴリに関連付けられているため、この方法には限界があるようです。 .

この方法をよりスマートにする方法について何か提案はありますか? または、企業がこのようなものをどのように実装するかについての提案/アドバイスはありますか?

4

1 に答える 1

2

おそらく、カテゴリに重みを付ける必要があります。一致するすべての単語を検索し、次のようにすべてのカテゴリに値を割り当てます。

  • 間違いなくそのカテゴリに属する​​単語ごとに 3 を追加します
  • より多くのカテゴリに属する​​可能性のある単語ごとに 1 を追加します

これは偏った重み付け (一意の単語に向けて) であり、このようにして、写真がどこに属しているかをより適切に判断できます。

また、どの単語が特定のカテゴリにどの程度関連しているかという、継続的に変化する重みマトリックスを構築することもできます。頻繁に使用する単語はあまり重要ではありません (誰もが使用しているため)。

また、分類されたテキストに基づいて、単語リストを自動的に拡張し、それらを自動的に分類することができます。たとえば、新しいゲーム名が単語リストに表示された場合 (「abc」と呼びます)、「abc」は趣味のカテゴリの多くのテキストに表示され、それ以外の場所には表示されないことに気付くでしょう。したがって、この単語をこのカテゴリに関連付けることができます。

自動学習システムを構築するのは非常にエキサイティングな分野です!

于 2013-01-29T21:10:53.873 に答える