ドメインに関する一連のドキュメントがあります。これらのドキュメントのデータは、ドメイン オントロジーに概念的にマッピングできます。これらのドキュメント間の類似性スコアを見つける必要があります。文献では、概念のベクトルを作成し (用語ベクトルと同様)、余弦法則を使用して類似性を計算することを提案する人が多くいます。
ドキュメントの単語ベクトル/tf-idf ベクトルを作成する方法を知っています。
例:
2 つのユーザー プロファイルを記述した 2 つのドキュメントがあるとします。
トークン化とステミングの後、ドキュメントごとに 2 つの単語の袋があります。
Doc1: (トム、ヤフー)
Doc2: (ジェリー、グーグル)
これらの単語の袋は、各ドキュメントの tf-idf ベクトルで表すことができます。
この場合のコサイン類似度スコアは、存在する正確な単語のみに基づいているため、ゼロになります。
しかし、yahoo と google の両方が検索エンジンであり、両方のユーザーが検索エンジンを使用しているという知識は、オントロジーに取り込まれています。
Yahooの「is-a」検索エンジン。
概念としてのYahooと検索エンジンはオントロジーに存在し、is-a はこれらの概念を結合する関係です。
これらの概念を使用して、余弦法則のベクトルを作成したいと考えています。
しかし、オントロジーから概念のベクトル/バッグを抽出する方法がわかりません。
どんなポインタも役に立ちます。