3

solrを使用したランキングの問題に直面していて、行き詰まっています。

eコマースサイトの場合、「ipad」というクエリに対して次のようになります。

  1. ipad2用のipadケース
  2. ipadケース
  3. ipad接続キット
  4. ipad32GBのwifi

これは問題です。「ipad、ipad2、ipad3、ipad retina、ipad miniなどと互換性のあるipadケース」などの説明により、主要製品(または製品自体)を最初にランク付けし、tf/idfがアクセサリを最初にランク付けするためです。 "。

さらに、カテゴリを使用すると、アクセサリであるか製品であるかを判断する方法がありません。

自動分類を使用すると役立つかどうか疑問に思います。このランキングを改善する別の解決策(のようなNamed Entity Recognition)をいただければ幸いです。

4

2 に答える 2

7

タグ付けされたデータを提供できますか?

5万を超えるアイテムがある場合Naive Bayes、製品名でトレーニングされたバイグラム言語モデルを使用すると、99%の精度でほぼすべてのアクセサリをキャッチできます。このような単純ベイズをMahoutでトレーニングできると思いますが、製品名のバイグラム量はかなり限られているため、最近ではスマートフォンでも簡単かつ高速にトレーニングできます。

これは典型的なMechanicalTurkタスクであり、いくつかのアイテムにタグを付けるのにそれほど費用がかかることはありません。ただし、半教師ありアルゴリズムを主張する場合は、Iterative similarity aggregation非常に便利です。

主なアイデアは、「ケース」/「電源アダプタ」などのトークンをいくつか指定すると、同じコンテキストに表示されるため、スパムの指標となる新しいトークンを繰り返し検出することです。

これが論文ですが、私はこれについてもブログ投稿を書きましたそれは平易な言葉で意図を要約しています。このホワイトペーパーでは、Seanが提案したのと同じ「ユーザーに適切なアイテムを見つけてもらう」パラダイムについても言及しているため、両方を組み合わせて使用​​できます。

ああ、Lucene&SOLRでの機械学習についてアドバイスが必要な場合は、今年のApacheConEuropeでの友人のTommasoTeofiliの話をお勧めします。スライドはslideshareで見つけることができます。そこに話のユーチューブビデオもあります、ちょうどそれを検索してください;)

于 2013-01-15T17:36:04.720 に答える
1

TF / IDFは、クエリ内の単語とタイトル内の単語に基づいてランク付けされます。それは「良い結果」の正しい定義ではなく、アクセサリーよりも製品を好むように思えます。

もちろん、ヒューリスティックを添付して問題にパッチを当てることもできます。たとえば、タイトルをマルチセットではなく単語のセットと見なすと、「iPad」の外観が何度も変わらないようになります。または、製品であることがわかっているアイテムのスコアを上げるだけです。これはそれ自体は学習ではありませんが、単純であり、ビジネス知識を直接反映しており、おそらく何らかのプラスの効果があります。

ここで学びたい場合は、おそらく、最良の結果が何であるかについての1つの最良の知識源であるユーザーを使用する必要があります。あなたは彼らが各クエリに応じて何をクリックするかを知っています。検索用語をクリックされたアイテムに関連付ける用語アイテムモデルを学ぶことができます。多くの種類の問題(実際には潜在因子推奨モデルがそこでうまく機能する可能性がある)を見ることができます。

レコメンダーを「検索エンジン」として使用する方法については、テッドのスライドをご覧ください:http: //www.slideshare.net/tdunning/search-as-recommendation

于 2013-01-15T15:35:25.823 に答える