data-mining - 2 つの Web ページ間の意味的関係を測定する方法

Question

大学の Web ページにアクセスしているとします。そこにはたくさんの先生のプロフィールがあります。これらのページは構文的に関連していませんが、意味的に関連しています。このタイプの関係をどのように測定できますか? 実際、関係を見つけるためにどのパラメータに焦点を合わせるべきですか?

score 0 · Accepted Answer

このSO 投稿では、フレーズ間の意味的類似性を計算する方法について回答しています。あなたの場合、さまざまなページをドキュメントとして表現し、同じアプローチに従うだけで済みます。

あなたの場合、アルゴは、ページ間のリンクや出版物（研究者の場合）など、より多くの情報を利用できます。リンクが少しでもお役に立てば幸いです...

score 0 · Accepted Answer

シンプルだが非常に優れたアルゴリズムを次に示します。

確かに、各教師のページとリンクされたページには、この教授を意味的に特徴付けるテキストが含まれています。教授のページとリンクされたページのテキストを連結して構成される単語のセットを作成するとします (任意の深さまでリンクをたどりながら、テキストを連結し続けることができます)。

これで、ベクトル空間モデルを使用して抽出された情報に基づいて教授をクラスタリングできます。各教授は、抽出されたページに含まれる単語と用語頻度に関連する値をコンポーネントとするベクトルによって表されます。コサイン類似度が残りの作業を行います。

2 に答える 2