類似した文字列 (単語) をマージしたい (文字列が他の文字列内にある)。
word
wor
words
wormhole
hole
なるだろう:
words
wormhole
とwor
重複する場合: word
, words
, wormhole
-wor
は破棄されます。-
word
破棄されます。-破棄されます。
しかし、オーバーラップしないでください。
これどうやってするの? words
word
hole
wormhole
hole
words
wormhole
編集
私の解決策は次のとおりです。
while read a
do
grep $a FILE |
awk 'length > m { m = length; a = $0 } END { print a }'
done < FILE |
sort -u
しかし、大規模なデータセットで問題が発生しないかどうかはわかりません。