5

だから、NLTK のタガーで複数の用語を組み合わせて単一の用語を作成する方法を誰かが知っているかどうか疑問に思っていました。.

たとえば、私がするとき:

nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))

それは私に与えます:

[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]

「Apple」と「Incorporated」を一緒にするにはどうすればよいですか('Apple Incorporated','NNP')

4

2 に答える 2

0

コードは、本来あるべきことを正確に実行しています。品詞タグをトークンに追加しています。「Apple Incorporated」は単一のトークンではありません。これは 2 つの別個のトークンであるため、単一の POS タグを適用することはできません。これは正しい動作です。

仕事に間違った道具を使おうとしているのだろうか。あなたは何をしようとしていますか / なぜあなたはそれをしようとしていますか? おそらく、POS のタグ付けではなく、コロケーションの識別に興味がありますか? あなたはここを見ているかもしれません: コロケーションモジュール

于 2013-06-11T14:33:22.597 に答える