0

del.icio.us のような Web サイトで検索がどのように行われるかについて、誰かが光を当てることができますか?

おいしいのクエリとして「js」(1)、「javascript」(2)、または「java script」(3) を入力すると、Java Script に関するリソースが示されます。ただし、クエリによって返される結果セットは異なります (del.icio.us システムは、"js" クエリと "javascript" クエリに対して異なるブックマーク セットを返します)。

そのため、システムは (1) と (2) が互いに同義であることを実際には認識していないようです。代わりに、関連付けられたタグまたはタイトルのいずれかにクエリ文字列を含むブックマークに対してクエリを照合しようとします。あれは正しいですか?

(1)、(2)、(3) はすべて実際には同義語であり、選択したクエリに関係なく、ユーザーはすべての Java Script 関連リソースを表示する必要があることをシステムにどのように「教育」しますか?

それをするのは良い考えですか?

ありがとう、グレッグ

4

4 に答える 4

1

はい: 人間の

真剣に:密接に関連するトピックからシノニムをプログラムで伝えることは、非常に困難なIMOになるでしょう。となど、一緒に表示される可能性が非常に高いタグの組み合わせがあります。確かに、たとえば、それなしでは発生しないため、何らかのサブセットである必要がある情報を使用して何かを実行できる場合がありますが、実際には、それ自体も発生します。適切にタグ付けされている場合は非常に頻繁に一緒に表示されますが、同義語ではありません。これを知るには、技術に関する実際の知識を持つ人が電話をかける必要があります.javascriptjqueryjqueryjavascriptXMLXSLT

シノニムの候補を見つける事前フィルタリング システムと、実際のシノニム化を管理者が行うことをお勧めします。

于 2009-12-29T18:59:44.580 に答える
0

WordNetを利用してみることもできます

于 2009-12-29T19:19:37.303 に答える
0

LSATFIDFなどのツールを使用して、データに含まれる概念を調べてみることができます。これは、おそらく del.icio.us が行っていることです。

于 2009-12-29T19:22:03.677 に答える
0

完全な解決策はありません。キーワードを同義語として明示的に宣言することもできますが、それ以外は多かれ少なかれ当て推量になります。

1 つのアプローチは、距離メトリックを使用することです。おいしいの場合、2 つのキーワードが同じブックマークに適用された回数を集計します。

ただし、誤検知の割り当てが発生する場合があります。たとえば、「ルビ」は「ルビー」を意味するが「ルビー」は「レール」ではなく「ルビー」を意味するため、「ルビー」が「レール」と一緒に使用される頻度はその逆よりも少ない可能性があります。これは、多かれ少なかれ同じ意味で使用されるべき類義語から関連用語を除外するのに役立つプロパティです。

于 2009-12-29T19:03:04.000 に答える