何千ものメールをプレーン テキストまたは HTML で保存しています。プレーン テキストの電子メールはすべてほぼ同じ形式であるため、実際の電子メール メッセージだけを抽出するのは簡単です。
しかし、HTML メールはいたるところにあり、本文メッセージのみを抽出する方法を考え出すのは難しいと感じています。電子メールには、「この電子メールは...によって生成されました」や、電子メールから電子メールへと変化するその他の非ユーザー生成テキストなど、望ましくない他の多くのジャンクがあります。
Python がテキストの本体または完全な文に似ているものを識別する方法はありますか?
私はすでにここにある正規表現を使用してみました: a Regex for extracting statement from a paragraph in python
しかし、それに関する問題は、次のような行がたくさんあることです。
タイトル* : Mr.
正規表現が考えているのは文であり、抽出したくありません。
また、その正規表現を NLTK の POS タガーと組み合わせて、名詞と動詞の両方を含む文のみを出力しようとしましたが、組み込みの POS タガーであり、トレーニングを受けていないため、うまく機能していないようです。任意のデータセット。
だから私の質問は次のとおりだと思います:どうすれば問題を解決できますか?何か不足していますか?