WordNetのデータファイル形式について質問があります。wndb(5)のマニュアルページには、次のように書かれています。
ソース/ターゲットフィールドは、語彙ポインターと意味ポインターを区別します。これは4バイトのフィールドであり、2桁の16進整数が2つ含まれています。最初の2桁は、現在の(ソース)シンセットの単語番号を示し、最後の2桁は、ターゲットシンセットの単語番号を示します。値0000は、pointer_symbolが現在の(ソース)シンセットとsynset_offsetで示されるターゲットシンセットの間のセマンティック関係を表すことを意味します。
異なるシンセット内の2つの単語間の字句関係は、ソースとターゲットの単語番号のゼロ以外の値で表されます。このフィールドの最初と最後の2バイトは、それぞれソースシンセットとターゲットシンセットのワード番号を示し、その間に関係が保持されます。単語番号は、シンセットの単語フィールドに、左から右に1から始まるように割り当てられます。
ソース/ターゲット番号がゼロ以外の場合の2番目の段落は理解できますが、ソース/ターゲットが「0000」の場合の意味はまだわかりません。
「貴族」という言葉を例にとってみましょう。index.noun
エントリは次のとおりです。
aristocrat n 1 4 @ 〜#m + 1 0 09807754
対応するdata.nounエントリは次のとおりです。
09807754 18 n 03 aristocrat 0 blue_blood 0 patrician 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102〜09840639 n 0000〜09872782 n 0000〜10083823 n 0000〜10175090 n 0000〜10285135 n 0000〜10472799 n 0000〜10474064 n 0000〜10505732 n 0000〜10506642 n 0000 | 貴族のメンバー
最初の「ptr」は次のとおりです。
@ 09623038 n 0000
そのdata.noun
エントリは次で始まります:
09623038 18n01リーダー00058@ 00007846 n0000..。
私にははっきりしないのは、この関係がどの単語のためのものかということです。上位概念( "@")の関係は、ターゲットのシンセット内のすべての単語(この場合は "leader"のみ)に対する元の単語( "aristrocrat")のみに当てはまりますか?
または、ソースシンセット(「aristocrat」、「blue blood」、および「patrician」)のすべての単語と、ターゲットシンセットのすべての単語の関係が成り立ちますか?