2

2 つのドキュメントを比較して「近さ」スコアを生成する方法を説明するアルゴリズムを見つけました。適度な数 (2 桁から 3 桁) の HTML ドキュメントを読み取り、それらをグループ化するために使用できる既知のアルゴリズムはありますか? 理想的には、ソース ドキュメントのすべての可能な順列で 2 入力アルゴリズムを使用しません。

Google ニュースはこのようなものを使用しているに違いないと思います。

明確にするために、ここに例を示します。

Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA:  30 documents
* CategoryB:  20 documents
* CategoryC:  5  documents
* Uncategorised: 45 documents
4

1 に答える 1

1

クラスター分析の分野でアルゴリズムを調べる必要があります。教師なし学習の非常に幅広い方法を探しているようですが、カテゴリを検索する前にアルゴリズムに入力を追加すると、結果の品質を向上させることができます。

ドキュメントを比較する方法を考え出すか、少なくとも関連する特徴 (単語の長さ、頻度など) を列挙する必要があります。これらは、使用しているクラスタリング アルゴリズムへの入力として使用できます。たとえば、次の特性を定義できます。

  • 言葉の数
  • 画像数
  • 外部リンク数
  • 地理に関する単語数
  • 生物学に関連する単語数
  • 経済に関する単語数
  • など

必要なカテゴリが具体的であるほど、アルゴリズムのパフォーマンスが向上します。上記の特性により、各ドキュメントの数のベクトルが得られます。

(384 , 12,  8, ...,  0)
(1244, 39, 10, ..., 55)
(128 ,  2, 66, ..., 33)
...

クラスタリング アルゴリズム ( k-means クラスタリングなど) を使用すると、各ドキュメントを最も可能性の高いクラスターに割り当てることができます。これは単なる例であることに注意してください。特定の問題については、より具体的なドメイン (医療記事など) のより具体的な特性を定義すると便利な場合があります。

于 2012-06-25T20:14:59.263 に答える