2 つのドキュメントを比較して「近さ」スコアを生成する方法を説明するアルゴリズムを見つけました。適度な数 (2 桁から 3 桁) の HTML ドキュメントを読み取り、それらをグループ化するために使用できる既知のアルゴリズムはありますか? 理想的には、ソース ドキュメントのすべての可能な順列で 2 入力アルゴリズムを使用しません。
Google ニュースはこのようなものを使用しているに違いないと思います。
明確にするために、ここに例を示します。
Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA: 30 documents
* CategoryB: 20 documents
* CategoryC: 5 documents
* Uncategorised: 45 documents