多くの自然言語には、単語に何らかの意味を追加する接頭辞があります。例:anti
アンチウイルスco
用、コーディネーターcounter
用、カウンターパート用
stem
これらのプレフィックスを分離する必要があることを検出します。特定の言語のプレフィックスのリストがあるとします。
prefix_list = ['c', 'ca', 'ata', 'de']
単語内のすべての可能な重複発生を一致させる方法"catastrophic"
結果は次のようになります。
['c', 'ca']
トライアル:
|
文字はオーバーラップをサポートしていません- Otto の解決策は、単語の先頭で重複していません
- 前のソリューションでは代わりに後方アサーションを試みましたが、後読みには固定幅パターンが必要です
ノート:
ata
単語がで始まらないため、結果になることはできませんata