python - メールの自然なテキストに一致するアルゴリズム

Question

さらに処理する前に、メール内の自然で一貫したテキスト/文をリスト、署名、挨拶などから分離する必要があります。

例：

こんにちはトム、

先週の月曜日、私たちは bla bla, lore Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut Labore et dolore magna aliqua を行いました。

リスト項目 2

リスト項目 3

リスト項目 3

Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat. Quis aute iure reprehenderit in voluptate velit

よろしく、K.

---変な文字の行-#######

例株式会社

33 イービルストリート、ロンドン

モバイル: 00 234534/234345

理想的には、アルゴリズムは太字部分のみに一致します。

推奨されるアプローチはありますか?または、その問題に対する既存のアルゴリズムもありますか? 句読点の数、長さなどに基づいて、おおよその正規表現またはより統計的なものを試す必要がありますか?

score 4 · Accepted Answer

目的の処理を実行するには、深刻なNLP処理を実行する必要があります（期待する精度のレベルと、コードの入力電子メールデータのランダム性とあいまいさによって異なります）。

これを読んでください。その他の関連事項については、参照セクションを参照してください。

これは分類のさまざまな問題を扱いますが、電子メールテキストの操作を伴います。

score 3 · Accepted Answer

投稿する例では、行の長さで十分です。

完全なアルゴリズムはありません。人間でさえ、行を異なる方法で分類します。

反例が見つかるまで行の長さを使用することをお勧めします。反例が見つかったら、アルゴリズムを修正します。問題が満足のいくまで解決されるまで繰り返します。

score 0 · Accepted Answer

解決策の概算を得るには多くのヒューリスティックスが必要になるため、ここにその 1 つを示します。標準準拠の電子メールメッセージがメッセージ本文と署名。

使用できるもう 1 つの方法は、同じ送信者からの電子メールのコピーを保存することです。これにより、すべてのメッセージで同じまたは類似しているもの (挨拶や署名など) を抽出し、メールクライアントがどのように引用を行っているかを検出できるようになります。

score -2 · Accepted Answer

太字の部分を見つけるだけの場合は、太字のテキストがメールデータベースに技術的にどのように実装されているかを調べてください。たとえば、html の場合は、次のようになります。

こんにちはトム、

先週の月曜日、私たちは bla bla, lore Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut Labore et dolore magna aliqua を行いました。
list item 2
list item 3
list item 3
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat. Quis aute iure reprehenderit in voluptate velit

よろしく、K.

---変な文字の行-#######

次に、次のコードを実行できます。

import re
# save the mail above as variable MailAbove
print re.findall(r'<b>(.*?)</b>',MailAbove)

結果：

[「先週の月曜日、私たちは bla bla を行いました。lore Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut Labore et dolore magna aliqua.」商品の結果。Quis aute iure reprehenderit in voluptate velit']

編集：コメントから、私が質問を誤解したことがわかります。一般に、このようなタスクは複数段階のプロセスです。いくつかの方法を適用し、結果と何が欠けているか、または誤って入っているかを確認し、修正を行うか新しい方法を追加して結果を確認します。これ
を読むことをお勧めします-あなたのようなタスクを解決するための優れたチュートリアル/本です。

python - メールの自然なテキストに一致するアルゴリズム

4 に答える 4

Related

Reference