search - フォークソノミーで検索してください。同義語の問題にどう取り組むか？

Question

del.icio.us のような Web サイトで検索がどのように行われるかについて、誰かが光を当てることができますか?

おいしいのクエリとして「js」(1)、「javascript」(2)、または「java script」(3) を入力すると、Java Script に関するリソースが示されます。ただし、クエリによって返される結果セットは異なります (del.icio.us システムは、"js" クエリと "javascript" クエリに対して異なるブックマークセットを返します)。

そのため、システムは (1) と (2) が互いに同義であることを実際には認識していないようです。代わりに、関連付けられたタグまたはタイトルのいずれかにクエリ文字列を含むブックマークに対してクエリを照合しようとします。あれは正しいですか？

(1)、(2)、(3) はすべて実際には同義語であり、選択したクエリに関係なく、ユーザーはすべての Java Script 関連リソースを表示する必要があることをシステムにどのように「教育」しますか?

それをするのは良い考えですか？

ありがとう、グレッグ

score 1 · Accepted Answer

はい: 人間の脳。

真剣に：密接に関連するトピックからシノニムをプログラムで伝えることは、非常に困難なIMOになるでしょう。となど、一緒に表示される可能性が非常に高いタグの組み合わせがあります。確かに、たとえば、それなしでは発生しないため、何らかのサブセットである必要がある情報を使用して何かを実行できる場合がありますが、実際には、それ自体も発生します。適切にタグ付けされている場合は非常に頻繁に一緒に表示されますが、同義語ではありません。これを知るには、技術に関する実際の知識を持つ人が電話をかける必要があります.javascriptjqueryjqueryjavascriptXMLXSLT

シノニムの候補を見つける事前フィルタリングシステムと、実際のシノニム化を管理者が行うことをお勧めします。

score 0 · Accepted Answer

0

WordNetを利用してみることもできます

于 2009-12-29T19:19:37.303 に答える

score 0 · Accepted Answer

LSAやTFIDFなどのツールを使用して、データに含まれる概念を調べてみることができます。これは、おそらく del.icio.us が行っていることです。

score 0 · Accepted Answer

完全な解決策はありません。キーワードを同義語として明示的に宣言することもできますが、それ以外は多かれ少なかれ当て推量になります。

1 つのアプローチは、距離メトリックを使用することです。おいしいの場合、2 つのキーワードが同じブックマークに適用された回数を集計します。

ただし、誤検知の割り当てが発生する場合があります。たとえば、「ルビ」は「ルビー」を意味するが「ルビー」は「レール」ではなく「ルビー」を意味するため、「ルビー」が「レール」と一緒に使用される頻度はその逆よりも少ない可能性があります。これは、多かれ少なかれ同じ意味で使用されるべき類義語から関連用語を除外するのに役立つプロパティです。

search - フォークソノミーで検索してください。同義語の問題にどう取り組むか？

4 に答える 4

Related

Reference