受信メッセージから情報を抽出するアプリがあります。メッセージにはすべて同じ情報が含まれていますが、送信元によって形式が異なります。
例:
ソースAからのメッセージ:
A: You spent $50.00 at Macy's on 2/20/12
ソースBからのメッセージ:
Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00
ただし、単一のソースからのすべてのメッセージの形式は同じです。そのため、現時点では、正規表現のセットを記述して、デコードしようとしているメッセージ(つまり、メッセージの送信元であるため、メッセージの形式がわかっている)を最初に識別し、次に抽出することで実行しています。メッセージからの必要な情報(上記の例では、取引金額、取引が発生した店舗、および日付を知りたい)。メッセージの新しいソースを発見した場合、またはソースがメッセージの形式を変更した場合(あまり頻繁には発生しませんが、発生する可能性があります)、そのメッセージの正規表現を手動で作成する必要があります。ただし、ある種の機械学習手法を使用してこれを自動化できると確信しています。機械学習についてはよくわかりません。私の問題に当てはまるテクニックをどこから探し始めるかさえわかりません。誰かが私をどこから読み始めるかについて正しい方向に向けてほしいと思います。