最初の考え:
- ノイズの言葉を捨てる(そして、あなたは、、、いくつか、...)。
- 他のすべての単語を数え、数量で並べ替えます。
- 2つの記事の各単語について、数量の合計(または積またはその他の式)に応じてスコアを追加します。
- スコアは類似性を表します。
主にドナルド・ラムズフェルドに関する記事には、これらの2つの単語がかなり含まれているようです。そのため、この記事ではそれらに重みを付けています。
ただし、ビル・ゲイツと一緒にウォーレン・バフェットについて何度も言及している記事や、ビル・ゲイツとマイクロソフトの両方について何度も言及している記事があるかもしれません。そこにある相関関係は最小限になります。
あなたのコメントに基づく:
したがって、記事がサダム・フセインに関するものである場合、アルゴリズムは、ドナルド・ラムズフェルドのイラクでの商取引に関する何かを推奨する可能性があります。
サダムの記事がイラク(またはドナルド)についても言及していない限り、それは当てはまりません。
それが私が始めたところであり、理論の潜在的な穴をすでに見ることができます(ビル・ゲイツに関する記事は、彼らの名がたくさん言及されている場合、ビル・クリントンに関する記事と密接に一致します)。これは他のすべての言葉(一方の法案はMicrosoft、もう一方の法案はヒラリー)によってうまく処理される可能性があります。
単語の近接機能を導入する前に、テストを実行することをお勧めします。これは、非常に複雑になるためです(おそらく不必要に)。
もう1つの可能な改善は、「ハード」な関連付けを維持することです(Osama bin Ladenを含む記事に常にアフガニスタンという単語を追加するなど)。しかし、繰り返しになりますが、オサマに関する記事はほぼ確実にアフガニスタンにも言及しているため、おそらく疑わしい価値のために追加のメンテナンスが必要です。