私は現在 Python に慣れようとしていますが、最近コーディングでブロックにぶつかりました。HTML ファイルにフレーズが出現する回数をカウントするコードを実行できませんでした。私は最近、テキスト ファイルで頻度をカウントするためのコードを作成するためのヘルプを受け取りましたが、html ファイルから直接これを行う方法があるのではないかと考えています (コピー アンド ペーストの代替手段をバイパスするため)。アドバイスをいただければ幸いです。私が使用した以前のコーディングは次のとおりです。
#!/bin/env python 3.3.2
import collections
import re
# Defining a function named "findWords".
def findWords(filepath):
with open(filepath) as infile:
for line in infile:
words = re.findall('\w+', line.lower())
yield from words
phcnt = collections.Counter()
from itertools import tee
phrases = {'central bank', 'high inflation'}
fw1, fw2 = tee(findWords('02.2003.BenBernanke.txt'))
next(fw2)
for w1,w2 in zip(fw1, fw2):
phrase = ' '.join([w1, w2])
if phrase in phrases:
phcnt[phrase] += 1
print(phcnt)