5

WordNetのデータファイル形式について質問があります。wndb(5)のマニュアルページには、次のように書かれています。

ソース/ターゲットフィールドは、語彙ポインターと意味ポインターを区別します。これは4バイトのフィールドであり、2桁の16進整数が2つ含まれています。最初の2桁は、現在の(ソース)シンセットの単語番号を示し、最後の2桁は、ターゲットシンセットの単語番号を示します。値0000は、pointer_symbolが現在の(ソース)シンセットとsynset_offsetで示されるターゲットシンセットの間のセマンティック関係を表すことを意味します。

異なるシンセット内の2つの単語間の字句関係は、ソースとターゲットの単語番号のゼロ以外の値で表されます。このフィールドの最初と最後の2バイトは、それぞれソースシンセットとターゲットシンセットのワード番号を示し、その間に関係が保持されます。単語番号は、シンセットの単語フィールドに、左から右に1から始まるように割り当てられます。

ソース/ターゲット番号がゼロ以外の場合の2番目の段落は理解できますが、ソース/ターゲットが「0000」の場合の意味はまだわかりません。

「貴族」という言葉を例にとってみましょう。index.nounエントリは次のとおりです。

aristocrat n 1 4 @ 〜#m + 1 0 09807754

対応するdata.nounエントリは次のとおりです。

09807754 18 n 03 aristocrat 0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102〜09840639 n 0000〜09872782 n 0000〜10083823 n 0000〜10175090 n 0000〜10285135 n 0000〜10472799 n 0000〜10474064 n 0000〜10505732 n 0000〜10506642 n 0000 | 貴族のメンバー

最初の「ptr」は次のとおりです。

@ 09623038 n 0000

そのdata.nounエントリは次で始まります:

09623038 18n01リーダー00058@ 00007846 n0000..。

私にははっきりしないのは、この関係がどの単語のためのものかということです。上位概念( "@")の関係は、ターゲットのシンセット内のすべての単語(この場合は "leader"のみ)に対する元の単語( "aristrocrat")のみに当てはまりますか?

または、ソースシンセット(「aristocrat」、「blue blood」、および「patrician」)のすべての単語と、ターゲットシンセットのすべての単語の関係が成り立ちますか?

4

1 に答える 1

1

実際、この関係は、ソースシンセット内のすべての単語とターゲットシンセット内のすべての単語に当てはまります。

これは、リーダーが常に貴族の上位概念であるという意味ではありませんが、考慮されている貴族の感覚(貴族のメンバー)および考慮されているリーダーの感覚(他の人を支配または指導または刺激する人)にも当てはまります。一部の関係は奇妙に聞こえるかもしれませんが、WordNetは完璧ではなく、完璧ではありません。

于 2013-09-03T14:46:23.103 に答える