4

私は、WordNet の構造と階層を使用する意味的類似性を測定するためのいくつかの方法に出くわしました。たとえば、Jiang and Conrath 測定 (JNC)、Resnik 測定 (RES)、Lin 測定 (LIN) などです。

NLTK を使用して測定する方法は次のとおりです。

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

WordNet が意味的類似度の計算の基礎である場合、ブラウン コーパスはここで何に使用されますか?

4

2 に答える 2

10

wordnet のNLTK ハウツーの説明を見てください。

具体的には、*_ic 表記は情報コンテンツです。

synset1.res_similarity(synset2, ic): Resnik Similarity: 最小共通サブシューマー (最も具体的な祖先ノード) の情報コンテンツ (IC) に基づいて、2 つの単語の意味がどの程度類似しているかを示すスコアを返します。情報コンテンツを使用する類似性測定の結果は、情報コンテンツの生成に使用されたコーパスと、情報コンテンツの作成方法の詳細に依存することに注意してください。

ここからの情報コンテンツに関するもう少しの情報:

語義の IC を測定する従来の方法は、WordNet のようなオントロジーからの階層構造の知識と、大規模なコーパスから得られるテキストでの実際の使用に関する統計とを組み合わせることです。

于 2013-09-09T20:43:02.203 に答える
4

コード内の brown_ic は、情報コンテンツ ファイル ~/nltk_data/corpora/wordnet_ic/ic-brown.dat を参照しています。ic-brown.dat のフォーマットの詳細については、NLTK-user グループのこのスレッドを参照してください。

全体として、ic-brown.datファイルには、ブラウン コーパスに存在するすべての単語と、それらの情報コンテンツの値 (単語の頻度に関連付けられている) が一覧表示されます。

JC、Resnik、および Lin によるセマンティック メジャーはすべて、WordNet に加えてコーパスの使用を必要とします。これらの測定は、WordNet をコーパス統計と組み合わせており、WordNet を単独で使用するよりも人間の判断との相関が高いことが示されています ( Li 2006 ; Pedersen 2010 )。

于 2013-09-16T15:27:06.843 に答える