英文から販売されている商品名を抽出したい。
例えば:
「新品の xbox を売ります」
「使用頻度の少ない27型テレビを売ります」
私"xbox"
に与えるべきであり、"27 inch TV"
現時点で考えられる唯一のことは、重要な名詞と重要な形容詞の巨大なリストをハードコーディングすることです。['tv', 'fridge', 'xbox', 'laptop', etc]
より良いアプローチはありますか?
英文から販売されている商品名を抽出したい。
例えば:
「新品の xbox を売ります」
「使用頻度の少ない27型テレビを売ります」
私"xbox"
に与えるべきであり、"27 inch TV"
現時点で考えられる唯一のことは、重要な名詞と重要な形容詞の巨大なリストをハードコーディングすることです。['tv', 'fridge', 'xbox', 'laptop', etc]
より良いアプローチはありますか?
nltk は、単語とその品詞のリストを表示するようです。名詞しか興味がないから?これにより、それらが提供されます
>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is',
'VBZ'), ("n't", 'RB'), ('all', 'DT'), ('that', 'DT'), ('bad', 'JJ'),
('.', '.')]