0

NTLK コーパス ライブラリでマークされているように、princeton WN センスからセンス オフセットを取得できます。

[in]:'dog.n.01'
>>> from nltk.corpus import wordnet as wn
>>> ss = wn.synset('dog.n.01')
>>> offset = str(ss.offset).zfill(8)+"-"+ss.pos
>>> print offset
[out]:'02084071-n'

そのオフセットは、 http://casta-net.jp/~kuribayashi/cgi-bin/wn-multi.cgi?synset=02084071-n&lang=engで使用されている規則に似ています。

wordnetコーパス全体をループせずに逆を行うにはどうすればよいですか? どこ:

[in]: '02084071-n'
[out]: 'dog.n.01' or Synset('dog.n.01')

私はこれを行うことができましたが、それは長すぎて冗長なサイクルが多すぎます:

[in]: '02084071-n'
in_offset, in_pos = "02084071-n".split("-")
from nltk.corpus import wordnet as wn
nltk_ss = [i for i in wn.all_synsets() if i.offset == int(in_offset) and i.pos == in_pos][0]
print nltk_ss
[out]: Synset('dog.n.01')
4

1 に答える 1

3

残念ながら、コーパスを少なくとも1回繰り返すことなく、ルックアップを元に戻すことはできません(これまでに示したように)。オフセットに基づいてシンセットを複数回検索する場合は、辞書に保存することをお勧めします。

>>> senseIdToSynset = {s.offset:s for s in wn.all_synsets()}
>>> senseIdToSynset[2084071]
Synset('dog.n.01')
于 2013-03-14T08:05:15.893 に答える