0

Python のプログラムで問題が発生しています。HTMLファイルからコンテンツを読み取ろうとしており、htmlタグを削除してからストップワードを削除しています。

実際、タグを削除することはできましたが、ストップ ワードを削除することはできません。プログラムはそれらをテキスト ファイルから取得し、リストに格納します。そのファイルの形式は次のとおりです。

a
about
an
...
yours

Python インタープリターでコードを段階的にテストすると機能しますが、「python main.py」を実行すると機能しません。

私のコードは次のとおりです。

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

def remove_stop_words(textContent, stopWords):
    for stopWord in stopWords:
        word = stopWord.replace('\n','') + ' '
        textContent.replace(word, '')
    return textContent


def main():
    stopWords = open("stopWords.txt", "r").readlines()
    emailContent = open("mail.html", "r").read()
    textContent = strip_tags(emailContent)
    print remove_stop_words(textContent.lower(), stopWords)

main()

あなたが私を助けてくれることを願っています

4

1 に答える 1