python - html ファイル内のフレーズ頻度のカウント

翻译自：https://stackoverflow.com/questions/20042411 2013-11-18T07:35:44.233

847 次

私は現在 Python に慣れようとしていますが、最近コーディングでブロックにぶつかりました。HTML ファイルにフレーズが出現する回数をカウントするコードを実行できませんでした。私は最近、テキストファイルで頻度をカウントするためのコードを作成するためのヘルプを受け取りましたが、html ファイルから直接これを行う方法があるのではないかと考えています (コピーアンドペーストの代替手段をバイパスするため)。アドバイスをいただければ幸いです。私が使用した以前のコーディングは次のとおりです。

#!/bin/env python 3.3.2
import collections
import re

# Defining a function named "findWords".
def findWords(filepath):
  with open(filepath) as infile:
    for line in infile:
      words = re.findall('\w+', line.lower())
      yield from words

phcnt = collections.Counter()

from itertools import tee
phrases = {'central bank', 'high inflation'}
fw1, fw2 = tee(findWords('02.2003.BenBernanke.txt'))   
next(fw2)
for w1,w2 in zip(fw1, fw2):
  phrase = ' '.join([w1, w2])
  if phrase in phrases:
    phcnt[phrase] += 1

print(phcnt)

python - html ファイル内のフレーズ頻度のカウント

2 に答える 2

Related

Reference