私は数千の用語のリストを持っています。これらの用語にはかなりの重複がありますが、形式は異なります。たとえば、(ruby, a_ruby)、(triathlon、triathlete、triathletes)、(nonprofit、non_profit、non_profits) などです。
これらのほとんどは、かなりの数の文字が重複していますが、まったく同じ形式ではありません。例: (非営利および非営利)
これに最適な正規表現シーケンスは何ですか? ステミングも使用できることは知っていますが、それを正規表現とどのように組み合わせることができるか疑問に思っています。