私の宿題では、テキストで最も頻繁に使用される 50 の単語を分離する必要があります。私は多くのことを試しましたが、最近の試みでは、これを使用して一致を達成しました:
concordance = {}
lineno = 0
for line in vocab:
lineno = lineno + 1
words = re.findall(r'[A-Za-z][A-Za-z\'\-]*', line)
for word in words:
word = word.title()
if word in concordance:
concordance[word].append(lineno)
else:
concordance[word] = [lineno]
listing = []
for key in sorted(concordance.keys()):
listing.append( [key, concordance[key] ])
私が知りたいのは、後続のコンコーダンスを最も頻繁に使用される単語から最も頻繁に使用されない単語の順に並べ替えてから、上位 50 を分離して出力できるかどうかです。re
と以外のモジュールをインポートすることは許可されておらずsys
、解決策を考え出すのに苦労しています。