さまざまなソースから編集された単語の大規模なリストがあります。非常に多くの無関係な情報源から来ているので、いくつかの重複があると思います。一部の元のファイル内でも、重複があります。それらを整理するためのスクリプトを作成しましたが、この時点でファイルが非常に不自然になっているため、解析しようとするとメモリが不足します。ソースは以下のとおりです。私はWindows8、64ビット、Ruby1.9.3-p327を実行しています。
#!/usr/bin/env ruby
words = []
File.foreach( "wordlist.txt" ) do |line|
words << line
end
words.uniq!()
words = words.sort()
wordFile = File.open( "wordlist.txt", "w" )
words.each do |word|
wordFile << word + "\n"
puts "Wrote to file: #{ word }"
end