メールで引用されたテキストを識別する方法を探しています。目標は、Gmailの「引用符で囲まれたテキストを表示する」機能に沿って、メールハンドラボットを含むWebアプリに何かを追加することです。
stackoverflowについても同様の質問がありますが、アルゴリズムを求めています。必要に応じてこれを実装することもできますが、実証済みの真のソリューションを強く望んでいます。
要件:
1)HTMLとプレーンテキストの両方の電子メールをサポートする
2)フルスレッドで動作します(つまり、引用されたテキストと比較するための元のテキストがあります。推測する必要はありません)
3)「2008年5月10日午後6時35分にブランドンが書いた」などの一般的な見積もり関連の追加を処理します。
Pythonライブラリは魔法のように素晴らしい理想ですが、それが幸運になるとは思っていません。これを実行できる単純なコマンドラインツールは理想にかなり近いでしょうが、私はそれが幸運であるとは思っていません。私は、ツールに抽出することが合理的に可能である、オープンソースのメールクライアントからのよく知られた優れた実装に喜んで落ち着きます。
誰かが私の最善の策が何であるかについての提案がありますか?
「メールハンドラボット構築キット」というものがないのにはちょっと驚きました。