Python のプログラムで問題が発生しています。HTMLファイルからコンテンツを読み取ろうとしており、htmlタグを削除してからストップワードを削除しています。
実際、タグを削除することはできましたが、ストップ ワードを削除することはできません。プログラムはそれらをテキスト ファイルから取得し、リストに格納します。そのファイルの形式は次のとおりです。
a
about
an
...
yours
Python インタープリターでコードを段階的にテストすると機能しますが、「python main.py」を実行すると機能しません。
私のコードは次のとおりです。
from HTMLParser import HTMLParser
class MLStripper(HTMLParser):
def __init__(self):
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(html):
s = MLStripper()
s.feed(html)
return s.get_data()
def remove_stop_words(textContent, stopWords):
for stopWord in stopWords:
word = stopWord.replace('\n','') + ' '
textContent.replace(word, '')
return textContent
def main():
stopWords = open("stopWords.txt", "r").readlines()
emailContent = open("mail.html", "r").read()
textContent = strip_tags(emailContent)
print remove_stop_words(textContent.lower(), stopWords)
main()
あなたが私を助けてくれることを願っています