一連の文をチェックして、文の中にいくつかのシード ワードが含まれているかどうかを確認したいと考えています。しかし、私は使用を避けたいと思ってfor seed in line
いring
ますbring
.
また、ドキュメントに複数語表現 (MWE) likeword with spaces
が含まれているかどうかも確認したいと思います。
私はこれを試しましたが、これは非常に遅いです.これを行うより速い方法はありますか?
seed = ['words with spaces', 'words', 'foo', 'bar',
'bar bar', 'foo foo foo bar', 'ring']
docs = ['these are words with spaces but the drinks are the bar is also good',
'another sentence at the foo bar is here',
'then a bar bar black sheep,
'but i dont want this sentence because there is just nothing that matches my list',
'i forgot to bring my telephone but this sentence shouldn't be in the seeded docs too']
docs_seed = []
for d in docs:
toAdd = False
for s in seeds:
if " " in s:
if s in d:
toAdd = True
if s in d.split(" "):
toAdd = True
if toAdd == True:
docs_seed.append((s,d))
break
print docs_seed
目的の出力は次のようになります。
[('words with spaces','these are words with spaces but the drinks are the bar is also good')
('foo','another sentence at the foo bar is here'),
('bar', 'then a bar bar black sheep')]