私はpythonが初めてです。Web サイトで単語が使用された回数を調べる簡単なプログラムがあります。
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
url = 'https://en.wikipedia.org/wiki/Wolfgang_Amadeus_Mozart'
ourUrl = opener.open(url).read()
soup = BeautifulSoup(ourUrl)
dem = soup.findAll('p') #find paragraphs
word_counts = Counter()
stopwords = frozenset(('A', 'AN', 'THE'))
for i in dem: # loop for each para
words = re.findall(r'\w+', i.text)
cap_words = [word.upper() for word in words if not word.upper() in stopwords]
word_counts.update(cap_words)
print word_counts
問題は、このスクリプトは一度しか使われない単語をたくさん与えるということです。含まれる単語が少なくとも 5 単語カウントになるようにスクリプトを更新するにはどうすればよいですか。
また、上位 5 つの最も一般的な単語を単語 1、単語 2、単語 3 などに並べ替えるにはどうすればよいでしょうか。