3

Googleニュースに似ていますが、基本的なトピックが何であるかを判断し、次にどのトピックが関連しているかを判断できるという意味で異なる2つのニュースアイテムのコンテンツの類似性を判断したいと思います。

したがって、記事がサダム・​​フセインに関するものである場合、アルゴリズムは、ドナルド・ラムズフェルドのイラクでの商取引に関する何かを推奨する可能性があります。

k最近傍法のようなキーワードとそれらが機能する理由についての少しの説明を投げかけることができれば(可能であれば)、残りの調査を行い、アルゴリズムを微調整します。誰かが以前に似たようなことを試みたに違いないことを私は知っているので、始める場所を探しているだけです。

4

2 に答える 2

5

最初の考え:

  • ノイズの言葉を捨てる(そして、あなたは、、、いくつか、...)。
  • 他のすべての単語を数え、数量で並べ替えます。
  • 2つの記事の各単語について、数量の合計(または積またはその他の式)に応じてスコアを追加します。
  • スコアは類似性を表します。

主にドナルド・ラムズフェルドに関する記事には、これらの2つの単語がかなり含まれているようです。そのため、この記事ではそれらに重みを付けています。

ただし、ビル・ゲイツと一緒にウォーレン・バフェットについて何度も言及している記事や、ビル・ゲイツとマイクロソフトの両方について何度も言及している記事があるかもしれません。そこにある相関関係は最小限になります。

あなたのコメントに基づく:

したがって、記事がサダム・​​フセインに関するものである場合、アルゴリズムは、ドナルド・ラムズフェルドのイラクでの商取引に関する何かを推奨する可能性があります。

サダムの記事がイラク(またはドナルド)についても言及していない限り、それは当てはまりません。

それが私が始めたところであり、理論の潜在的な穴をすでに見ることができます(ビル・ゲイツに関する記事は、彼らの名がたくさん言及されている場合、ビル・クリントンに関する記事と密接に一致します)。これは他のすべての言葉(一方の法案はMicrosoft、もう一方の法案はヒラリー)によってうまく処理される可能性があります。

単語の近接機能を導入する前に、テストを実行することをお勧めします。これは、非常に複雑になるためです(おそらく不必要に)。

もう1つの可能な改善は、「ハード」な関連付けを維持することです(Osama bin Ladenを含む記事に常にアフガニスタンという単語を追加するなど)。しかし、繰り返しになりますが、オサマに関する記事はほぼ確実にアフガニスタンにも言及しているため、おそらく疑わしい価値のために追加のメンテナンスが必要です。

于 2009-04-09T06:04:00.353 に答える
0

現時点では、このようなことを考えています。

各非ノイズ ワードは次元です。各記事はベクトルで表され、表示されない単語は 0 で表され、表示される単語は、表示される回数をページ上の合計単語で割った値になります。次に、この空間内の各ポイント間のユークリッド距離を取得して、任意の 2 つの記事の類似性を取得できます。

次のステップでは、記事のクラスターを決定し、各クラスターの中心点を決定します。次に、トピックの類似性を示す任意の 2 つのクラスター間のユークリッド距離を計算します。

ああ、それを入力することで、私は自分の問題を解決したと思います。もちろん、非常に高いレベルの方法でのみ、実際に取り掛かると問題が見つかると確信しています... 悪魔は常に細部に潜んでいます。

しかし、コメントと改善は依然として高く評価されています。

于 2009-04-09T05:40:31.377 に答える