類似した文字列 (単語) をマージしたい (文字列が他の文字列内にある)。
word
wor
words
wormhole
hole
なるだろう:
words
wormhole
とwor重複する場合: word, words, wormhole-worは破棄されます。-
word破棄されます。-破棄されます。
しかし、オーバーラップしないでください。
これどうやってするの? wordsword
holewormholeholewordswormhole
編集
私の解決策は次のとおりです。
while read a
do
grep $a FILE |
awk 'length > m { m = length; a = $0 } END { print a }'
done < FILE |
sort -u
しかし、大規模なデータセットで問題が発生しないかどうかはわかりません。