入力が 2 つの文字列で、出力が 2 つの文字列で繰り返される単語の数である場合に数値を返すことができるライブラリまたは関数があるかどうかを知りたいです。
入力:
string 1= my name is user
string 2= my friend is here
出力:
2
"my" と "is" が両方の文字列で繰り返されているため... nltk がそれを手伝ってくれると聞きました。もし本当なら、誰かが私を関数に案内してくれます...助けてください
よくわからないnltk
-少しやり過ぎのようです(高度なトークン化が必要な場合を除く)。スペースだけで単語をトークン化できる場合は、次のようにセットを使用できます。
>>> a = 'one two three four five'
>>> b = 'three blind mice'
>>> set(a.split()).intersection(b.split())
set(['three'])
そして、その長さを取る...
res=set(a.split())&set(b.split())
print len(res)