machine-learning - トレーニングセット内のフレーズのプロトタイプベクトルは何ですか

Question

エンティティを明確にするために、論文に従ってアプローチを実装しようとしています。このプロセスは、トレーニングフェーズと明確化フェーズの 2 つのステップで構成されます。トレーニング段階についてお聞きしたいのですが、この段落で説明されているように、プロトタイプベクトルを取得する方法がよくわかりません。

トレーニングフェーズでは、特定のエンティティに少なくとも 10 回リンクされている単語またはフレーズごとに、プロトタイプベクトルと呼ばれるものを計算します。それぞれのリンクの近傍 (左右で 10 単語と見なします)。1 つの同じ単語またはフレーズが、コレクション内のその単語またはフレーズの出現からリンクされたエンティティごとに 1 つずつ、複数のそのようなプロトタイプベクトルを持つことができることに注意してください。

彼らはウィキペディアのアプローチを使用し、ウィキペディアからのリンクをトレーニングセットとして使用しています。

そこで説明されているように、誰かがプロトタイプベクトルの例を挙げてくれませんか? 私はこの分野の初心者です。

score 2 · Accepted Answer

プロトタイプベクトルの概要は次のとおりです。

最初に注意することは、ウィキペディアの単語はウィキペディアのページ（エンティティと呼びます）へのハイパーリンクである可能性があるということです。このエンティティは何らかの方法で単語に関連付けられていますが、同じ単語が異なるエンティティにリンクしている可能性があります。

「特定のエンティティに少なくとも10回リンクされている単語またはフレーズごとに」

word_Aウィキペディア全体で、にリンクする回数をカウントしますentity_B。10を超える場合は、続行します（リンク元のエンティティを書き留めます）。

[(wordA, entityA1), (wordA, entityA2),...]

ここでは、などにリンクしている場所でwordA発生します。entityA1entityB

「それぞれのリンクの近隣の1つで発生するすべての用語のリスト」

entityA1にはwordA、左右に10個の単語があります（どちらの側にも4つしか表示されていません）。

are developed and the entity relationships between these data
                      wordA
                      link # (to entityB)

['are', 'developed, 'and', 'the', 'relationships', 'between', 'these', 'data']

各ペア(wordA, entityAi)はそのようなリストを提供し、それらを連結します。

「tf.idf加重、正規化されたリスト」

基本的に、tf.idfは、一般的な単語に、あまり一般的でない単語よりも「重み」を少なくする必要があることを意味します。たとえば、'and'および'the'は非常に一般的な単語であるため、または。よりも（隣にあることに対して）意味が少なくなります。'entity''relationships''between'

正規化とは、単語が出現する回数を（本質的に）カウントする必要があることを意味します（出現する回数が多いほど、関連性が高いと考えられwordAます。次に、このカウントに重みを掛けて、リストを並べ替えるスコアを取得します。最も頻度の低い、最も一般的でない単語を一番上に置きます。

「1つの同じ単語またはフレーズが複数のそのようなプロトタイプベクトルを持つことができることに注意してください」

これは依存しているだけでなく、マッピングと考えることwordAもentityBできます。

(wordA, entityB) -> tf.idf-weighted, normalized list (as described above)
(wordA, entityB2) -> a different tf.idf-weighted, normalized list

これは、単語からの猫へのリンクは、猫の女性へのリンクよりも'cat'隣人がいる可能性が低いことを示しています。'batman'

machine-learning - トレーニング セット内のフレーズのプロトタイプ ベクトルは何ですか

1 に答える 1

「特定のエンティティに少なくとも10回リンクされている単語またはフレーズごとに」

「それぞれのリンクの近隣の1つで発生するすべての用語のリスト」

「tf.idf加重、正規化されたリスト」

「1つの同じ単語またはフレーズが複数のそのようなプロトタイプベクトルを持つことができることに注意してください」

Related

Reference

machine-learning - トレーニングセット内のフレーズのプロトタイプベクトルは何ですか