コンパイルされた正規表現を使用して、リスト内のすべての単語を文字列から一致させて削除しようとしていますが、単語内での出現を避けるのに苦労しています。
現時点の:
REMOVE_LIST = ["a", "an", "as", "at", ...]
remove = '|'.join(REMOVE_LIST)
regex = re.compile(r'('+remove+')', flags=re.IGNORECASE)
out = regex.sub("", text)
中:「足の速い茶色のキツネがアリを飛び越えた」
Out: 「素早く茶色のキツネが t を飛び越えた」
予想: 「素早い茶色のキツネが飛び越えた」
文字列を次のようにコンパイルするように変更しようとしましたが、役に立ちませんでした:
regex = re.compile(r'\b('+remove+')\b', flags=re.IGNORECASE)
何か提案がありますか、それとも派手に明白なものが欠けていますか?