プロトタイプベクトルの概要は次のとおりです。
最初に注意することは、ウィキペディアの単語はウィキペディアのページ(エンティティと呼びます)へのハイパーリンクである可能性があるということです。このエンティティは何らかの方法で単語に関連付けられていますが、同じ単語が異なるエンティティにリンクしている可能性があります。
「特定のエンティティに少なくとも10回リンクされている単語またはフレーズごとに」
word_A
ウィキペディア全体で、にリンクする回数をカウントしますentity_B
。10を超える場合は、続行します(リンク元のエンティティを書き留めます)。
[(wordA, entityA1), (wordA, entityA2),...]
ここでは、などにリンクしている場所でwordA
発生します。entityA1
entityB
「それぞれのリンクの近隣の1つで発生するすべての用語のリスト」
entityA1
にはwordA
、左右に10個の単語があります(どちらの側にも4つしか表示されていません)。
are developed and the entity relationships between these data
wordA
link # (to entityB)
['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']
各ペア(wordA, entityAi)
はそのようなリストを提供し、それらを連結します。
「tf.idf加重、正規化されたリスト」
基本的に、tf.idfは、一般的な単語に、あまり一般的でない単語よりも「重み」を少なくする必要があることを意味します。たとえば、'and'
および'the'
は非常に一般的な単語であるため、または。よりも(隣にあることに対して)意味が少なくなります。'entity'
'relationships'
'between'
正規化とは、単語が出現する回数を(本質的に)カウントする必要があることを意味します(出現する回数が多いほど、関連性が高いと考えられwordA
ます。次に、このカウントに重みを掛けて、リストを並べ替えるスコアを取得します。最も頻度の低い、最も一般的でない単語を一番上に置きます。
「1つの同じ単語またはフレーズが複数のそのようなプロトタイプベクトルを持つことができることに注意してください」
これは依存しているだけでなく、マッピングと考えることwordA
もentityB
できます。
(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list
これは、単語からの猫へのリンクは、猫の女性へのリンクよりも'cat'
隣人がいる可能性が低いことを示しています。'batman'