0

キーワード/タグのリストを取り、それらを特定の文字列/ファイル/URLに一致させることができるpythonパッケージはありますか?

具体的には、ステミングおよび/またはその他の同義語の一致方法を使用します。

つまり、事前に保存したキーワード:

Ski, Bike, Climb

私のテキスト:

Skiing in the mountains is great

でタグ付けする必要がありますSki

Skiing and mountain biking is fun

SkiAndでタグ付けする必要がありますBike

そして、どこかにマッピングする同義語ファイルがあるBike場合MTB

MTB is a great way to spend the day

タグ付けするべきBike

4

2 に答える 2

0

私はそれを行うためのパッケージを知りませんが、実際にはこれはプレーンなPythonで非常に簡単です。re(正規表現)標準パッケージを使用します。何かのようなもの

import re
key_words =['ski','bike','climb'] 
input = "Skiing and mountain biking is fun"

input_words = input.split()#split on space
[word.lower() for word in input_words]
input_tags =[]
for word in input_words:
   for key in key_words:
      if re.search(key,word):
         input_tags.append(key)
于 2011-12-04T15:57:40.940 に答える
0

を参照してください( moduleThesaurusなどの別のモジュールを試すこともできます)。synonym

また、次を使用して、特定の文字列を含む文をテストできますin

>>> 'Ski' in 'Skiing in the mountains is great'
True
>>> 'Bike' in 'Skiing in the mountains is great'
False
于 2011-12-04T12:02:59.580 に答える