1

何千ものメールをプレーン テキストまたは HTML で保存しています。プレーン テキストの電子メールはすべてほぼ同じ形式であるため、実際の電子メール メッセージだけを抽出するのは簡単です。

しかし、HTML メールはいたるところにあり、本文メッセージのみを抽出する方法を考え出すのは難しいと感じています。電子メールには、「この電子メールは...によって生成されました」や、電子メールから電子メールへと変化するその他の非ユーザー生成テキストなど、望ましくない他の多くのジャンクがあります。

Python がテキストの本体または完全な文に似ているものを識別する方法はありますか?

私はすでにここにある正規表現を使用してみました: a Regex for extracting statement from a paragraph in python

しかし、それに関する問題は、次のような行がたくさんあることです。

タイトル* : Mr.

正規表現が考えているのは文であり、抽出したくありません。

また、その正規表現を NLTK の POS タガーと組み合わせて、名詞と動詞の両方を含む文のみを出力しようとしましたが、組み込みの POS タガーであり、トレーニングを受けていないため、うまく機能していないようです。任意のデータセット。

だから私の質問は次のとおりだと思います:どうすれば問題を解決できますか?何か不足していますか?

4

3 に答える 3

0

NLTK のトークナイザー パッケージのを参照しnltk.tokenize.sent_tokenize(text)てください。ターゲットテキストで、自分で試してみる必要があることに注意してください。テキストを文にトークン化するとき、ある文のトークナイザまたは別の文のトークナイザが間違った出力を生成する奇妙なケースが常にあります。

于 2013-06-26T04:47:13.173 に答える