0

ドメインに関する一連のドキュメントがあります。これらのドキュメントのデータは、ドメイン オントロジーに概念的にマッピングできます。これらのドキュメント間の類似性スコアを見つける必要があります。文献では、概念のベクトルを作成し (用語ベクトルと同様)、余弦法則を使用して類似性を計算することを提案する人が多くいます。

ドキュメントの単語ベクトル/tf-idf ベクトルを作成する方法を知っています。
例:
2 つのユーザー プロファイルを記述した 2 つのドキュメントがあるとします。
トークン化とステミングの後、ドキュメントごとに 2 つの単語の袋があります。

Doc1: (トム、ヤフー)
Doc2: (ジェリー、グーグル)
これらの単語の袋は、各ドキュメントの tf-idf ベクトルで表すことができます。
この場合のコサイン類似度スコアは、存在する正確な単語のみに基づいているため、ゼロになります。

しかし、yahoo と google の両方が検索エンジンであり、両方のユーザーが検索エンジンを使用しているという知識は、オントロジーに取り込まれています。
Yahooの「is-a検索エンジン
概念としてのYahoo検索エンジンはオントロジーに存在し、is-a はこれらの概念を結合する関係です。
これらの概念を使用して、余弦法則のベクトルを作成したいと考えています。
しかし、オントロジーから概念のベクトル/バッグを抽出する方法がわかりません。

どんなポインタも役に立ちます。

4

1 に答える 1

2

何が必要なのかわからないため、これはベクトルを作成する 1 つの方法にすぎません。まず、オントロジー内の情報にアクセスするには、OWL-APIなどの API を使用する必要があります。あなたが示唆していることにより、クラス、個体、プロパティなどのモデリング要素を抽出する必要があります。あなたの場合yahoo、個人search engineかもしれませんし、クラスかもしれません。したがって、それらを抽出できるようにする必要があります。OWL-API の例が必要な場合は、他のスタック オーバーフローの質問を参照するか、リンクされた Web サイトの例を読んでください。

次に、たとえば公理を抽出する必要がありますyahoo is a search engine。次に、頻度を計算している場合は、それらを文として扱い、必要なものの頻度を計算できます。オントロジーにおける意味的類似性または構文的類似性を計算する分野全体があります。Google Scholar を開いて検索します。

于 2015-03-24T07:19:53.010 に答える