python - Wordnet からの類似性測定を正規化する方法

Question

2 つの単語の意味的類似性を計算しようとしています。私は Wordnet ベースの類似性測定、つまり Resnik 測定 (RES)、Lin 測定 (LIN)、Jiang および Conrath 測定 (JNC)、および Banerjee および Pederson 測定 (BNP) を使用しています。

そのために、nltk と Wordnet 3.0 を使用しています。次に、異なる尺度から得られた類似値を結合したいと考えています。これを行うには、類似度の値を正規化する必要があります。これは、0 から 1 の間の値を与える尺度もあれば、1 より大きい値を与える尺度もあるからです。

だから、私の質問は、さまざまな尺度から得られた類似値をどのように正規化するかです。

私が実際にやろうとしていることの詳細: 私には一連の言葉があります。単語間のペアワイズ類似度を計算します。セット内の他の単語と強く相関していない単語を削除します。

score 11 · Accepted Answer

単一のメジャーを正規化する方法

単一の任意の類似度を考えてM、任意の単語を取りますw。

を定義しm = M(w,w)ます。次に、 m はの可能な最大値を取りますM。

MN正規化されたメジャーとして定義しましょうM。

任意の 2 つの単語について、w, uを計算できますMN(w, u) = M(w, u) / m。

Mifが負でない値をMN取る場合、の値を取ることは簡単にわかります[0, 1]。

多くのメジャーから結合されたメジャーを正規化する方法

Fk 個の異なる測定値を組み合わせた独自の定義済み測定値を計算するには、まず上記の方法を使用m_1, m_2, ..., m_kしてそれぞれ個別に正規化し、次に定義します。m_i

alpha_1, alpha_2, ..., alpha_k

alpha_iは i 番目のメジャーの重みを示します。

すべてのアルファの合計は 1 になる必要があります。つまり、次のようになります。

alpha_1 + alpha_2 + ... + alpha_k = 1

次に、独自の測定値を計算するには、次のようにw, uします。

F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u)

F[0,1]の値を取ることは明らかです

python - Wordnet からの類似性測定を正規化する方法

1 に答える 1

単一のメジャーを正規化する方法

多くのメジャーから結合されたメジャーを正規化する方法

Related

Reference