さらに処理する前に、メール内の自然で一貫したテキスト/文をリスト、署名、挨拶などから分離する必要があります。
例:
こんにちはトム、
先週の月曜日、私たちは bla bla, lore Lorem ipsum dolor sit amet, consectetur adipisici elit, sed eiusmod tempor incidunt ut Labore et dolore magna aliqua を行いました。
- リスト項目 2
- リスト項目 3
- リスト項目 3
Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid x ea commodi consequat. Quis aute iure reprehenderit in voluptate velit
よろしく、K.
---変な文字の行-#######
例株式会社
33 イービル ストリート、ロンドン
モバイル: 00 234534/234345
理想的には、アルゴリズムは太字部分のみに一致します。
推奨されるアプローチはありますか?または、その問題に対する既存のアルゴリズムもありますか? 句読点の数、長さなどに基づいて、おおよその正規表現またはより統計的なものを試す必要がありますか?