私はsmsのようなテキストの非常に小さなチャンクから名前と組織名のように固有名詞を抽出しようとしています.nltkで利用可能な基本的なパーサーは、NLTK WordNetを使用して固有名詞を見つけることで名詞を取得できますが、問題は固有名詞を取得するときです大文字で始まらない、このようなテキストでは、sumit のような名前は固有名詞として認識されません
>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]