0

英文から販売されている商品名を抽出したい。

例えば:

「新品の xbox を売ります」

「使用頻度の少ない27型テレビを売ります」

"xbox"に与えるべきであり、"27 inch TV"

現時点で考えられる唯一のことは、重要な名詞と重要な形容詞の巨大なリストをハードコーディングすることです。['tv', 'fridge', 'xbox', 'laptop', etc]

より良いアプローチはありますか?

4

1 に答える 1

1

nltk は、単語とその品詞のリストを表示するようです。名詞しか興味がないから?これにより、それらが提供されます

>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad.")) 
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is',
'VBZ'), ("n't", 'RB'), ('all', 'DT'), ('that', 'DT'), ('bad', 'JJ'),
('.', '.')]
于 2013-01-24T20:27:42.610 に答える