algorithm - 任意の数の HTML ドキュメントをトピックに分類するアルゴリズム

Question

2 つのドキュメントを比較して「近さ」スコアを生成する方法を説明するアルゴリズムを見つけました。適度な数 (2 桁から 3 桁) の HTML ドキュメントを読み取り、それらをグループ化するために使用できる既知のアルゴリズムはありますか? 理想的には、ソースドキュメントのすべての可能な順列で 2 入力アルゴリズムを使用しません。

Google ニュースはこのようなものを使用しているに違いないと思います。

明確にするために、ここに例を示します。

Input: 100 HTML documents
Output:
- 3 categories found:
* CategoryA:  30 documents
* CategoryB:  20 documents
* CategoryC:  5  documents
* Uncategorised: 45 documents

score 1 · Accepted Answer

クラスター分析の分野でアルゴリズムを調べる必要があります。教師なし学習の非常に幅広い方法を探しているようですが、カテゴリを検索する前にアルゴリズムに入力を追加すると、結果の品質を向上させることができます。

ドキュメントを比較する方法を考え出すか、少なくとも関連する特徴 (単語の長さ、頻度など) を列挙する必要があります。これらは、使用しているクラスタリングアルゴリズムへの入力として使用できます。たとえば、次の特性を定義できます。

言葉の数
画像数
外部リンク数
地理に関する単語数
生物学に関連する単語数
経済に関する単語数
など

必要なカテゴリが具体的であるほど、アルゴリズムのパフォーマンスが向上します。上記の特性により、各ドキュメントの数のベクトルが得られます。

(384 , 12,  8, ...,  0)
(1244, 39, 10, ..., 55)
(128 ,  2, 66, ..., 33)
...

クラスタリングアルゴリズム ( k-means クラスタリングなど) を使用すると、各ドキュメントを最も可能性の高いクラスターに割り当てることができます。これは単なる例であることに注意してください。特定の問題については、より具体的なドメイン (医療記事など) のより具体的な特性を定義すると便利な場合があります。

algorithm - 任意の数の HTML ドキュメントをトピックに分類するアルゴリズム

1 に答える 1

Related