2

nltk pos_tag 関数と WordNetLemmatizer で python3.5 を使用しています。私の目標は、データベース内の単語を平坦化してテキストを分類することです。lemmatizer を使用してテストしようとしていますが、同一のトークンで POS タガーを使用すると、奇妙な動作が発生します。以下の例では、3 つの文字列のリストがあり、それらを POS タガーで実行すると、他のすべての要素が名詞 (NN) として返され、残りは動詞 (VBG) として返されます。

これは見出し語化に影響します。出力は次のようになります。

pos Of token: v
lemmatized token: skydive
pos Of token: n
lemmatized token: skydiving
pos Of token: v
lemmatized token: skydive

同一の文字列のリストにさらに要素を追加すると、この同じパターンが続きます。私が使用している完全なコードは次のとおりです。

tokens = ['skydiving', 'skydiving', 'skydiving']
lmtzr=WordNetLemmatizer()

def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return 'a'
    elif treebank_tag.startswith('V'):
        return 'v'
    elif treebank_tag.startswith('N'):
        return 'n'
    elif treebank_tag.startswith('R'):
        return 'r'
    elif treebank_tag.startswith('S'):
        return ''
    else:
        return ''

numTokens = (len(tokens))
for i in range(0,numTokens):
    tokens[i]=tokens[i].replace(" ","")

noSpaceTokens = pos_tag(tokens)

for token in noSpaceTokens:
    tokenStr = str(token[1])
    noWhiteSpace = token[0].replace(" ", "")
    preLemmed = get_wordnet_pos(tokenStr)
    print("pos Of token: " + preLemmed)
    lemmed = lmtzr.lemmatize(noWhiteSpace,preLemmed)
    print("lemmatized token: " + lemmed)
4

1 に答える 1

3

要するに:

POS タグを付けるときは、非文法的なトークンのリストではなく、コンテキスト センテンスが必要です。

文脈外の文を補題化する場合、正しい補題を取得する唯一の方法は、pos タグを手動で指定することです。


長文:

POS tagger は通常、個々の単語ではなく、文全体に対して機能します。コンテキスト外の単一の単語にタグを付けようとすると、最も頻繁にタグが付けられます。

単一の単語 (つまり、1 単語のみの文) にタグを付けると、常に同じタグが付けられることを確認するには:

>>> from nltk.stem import WordNetLemmatizer
>>> from nltk import pos_tag
>>> ptb2wn_pos = {'J':'a', 'V':'v', 'N':'n', 'R':'r'}
>>> sent = ['skydive']
>>> most_frequent_tag = pos_tag(sent)[0][1]
>>> most_frequent_tag
'JJ'
>>> most_frequent_tag = ptb2wn_pos[most_frequent_tag[0]]
>>> most_frequent_tag
'a'
>>> for _ in range(1000): assert ptb2wn_pos[pos_tag(sent)[0][1][0]] == most_frequent_tag;
... 
>>>

ここで、文に単語が 1 つしかない場合、タグはデフォルトで常に「a」であるため、WordNetLemmatizerは常に次を返しskydiveます。

>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize(sent[0], pos=most_frequent_tag)
'skydive'

文の文脈で単語の補題を見てみましょう:

>>> sent2 = 'They skydrive from the tower yesterday'
>>> pos_tag(sent2.split())
[('They', 'PRP'), ('skydrive', 'VBP'), ('from', 'IN'), ('the', 'DT'), ('tower', 'NN'), ('yesterday', 'NN')]
>>> pos_tag(sent2.split())[1]
('skydrive', 'VBP')
>>> pos_tag(sent2.split())[1][1]
'VBP'
>>> ptb2wn_pos[pos_tag(sent2.split())[1][1][0]]
'v'

そのため、トークンの入力リストのコンテキストが重要になりますpos_tag

あなたの例で['skydiving', 'skydiving', 'skydiving']は、タグ付けしている文が非文法的な文であることを意味するリストがありました。

スカイダイビング スカイダイビング スカイダイビング

そして、pos_tag関数は通常の文であると考えているため、タグを付けます:

>>> sent3 = 'skydiving skydiving skydiving'.split()
>>> pos_tag(sent3)
[('skydiving', 'VBG'), ('skydiving', 'NN'), ('skydiving', 'VBG')]

この場合、最初の単語は動詞、2 番目の単語は名詞、3 番目の単語は動詞であり、次の補題が返されます (これは望ましくありません)。

>>> wnl.lemmatize('skydiving', 'v')
'skydive'
>>> wnl.lemmatize('skydiving', 'n')
'skydiving'
>>> wnl.lemmatize('skydiving', 'v')
'skydive'

したがって、トークンのリストに有効な文法文がある場合、出力は非常に異なるように見える可能性があります

>>> sent3 = 'The skydiving sport is an exercise that promotes diving from the sky , ergo when you are skydiving , you feel like you are descending to earth .'
>>> pos_tag(sent3.split())
[('The', 'DT'), ('skydiving', 'NN'), ('sport', 'NN'), ('is', 'VBZ'), ('an', 'DT'), ('exercise', 'NN'), ('that', 'IN'), ('promotes', 'NNS'), ('diving', 'VBG'), ('from', 'IN'), ('the', 'DT'), ('sky', 'NN'), (',', ','), ('ergo', 'RB'), ('when', 'WRB'), ('you', 'PRP'), ('are', 'VBP'), ('skydiving', 'VBG'), (',', ','), ('you', 'PRP'), ('feel', 'VBP'), ('like', 'IN'), ('you', 'PRP'), ('are', 'VBP'), ('descending', 'VBG'), ('to', 'TO'), ('earth', 'JJ'), ('.', '.')]
于 2015-10-16T14:04:31.440 に答える