2

受信メッセージから情報を抽出するアプリがあります。メッセージにはすべて同じ情報が含まれていますが、送信元によって形式が異なります。

例:

ソースAからのメッセージ:

A: You spent $50.00 at Macy's on 2/20/12

ソースBからのメッセージ:

Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00

ただし、単一のソースからのすべてのメッセージの形式は同じです。そのため、現時点では、正規表現のセットを記述して、デコードしようとしているメッセージ(つまり、メッセージの送信元であるため、メッセージの形式がわかっている)を最初に識別し、次に抽出することで実行しています。メッセージからの必要な情報(上記の例では、取引金額、取引が発生した店舗、および日付を知りたい)。メッセージの新しいソースを発見した場合、またはソースがメッセージの形式を変更した場合(あまり頻繁には発生しませんが、発生する可能性があります)、そのメッセージの正規表現を手動で作成する必要があります。ただし、ある種の機械学習手法を使用してこれを自動化できると確信しています。機械学習についてはよくわかりません。私の問題に当てはまるテクニックをどこから探し始めるかさえわかりません。誰かが私をどこから読み始めるかについて正しい方向に向けてほしいと思います。

4

1 に答える 1

3

金額、日付、人名、および同様の情報を検出してラベルを付けるために、固有表現認識と呼ばれる手法を使用できます。Stanford Named Entity Recognizerには、トレーニング済みのすぐに使用できるモデルが付属しています。また、これまでに生成したラベル付きデータを使用して、アプリケーションのカスタム モデルを学習します。この目的で使用される標準的な手法は、Conditional Random Fields または Sequence Perceptron です。これらのモデルを実装する多くのツールキットがあります。

  • Wapiti - シンプルで高速な識別シーケンス ラベリング ツールキット.
  • Sequor - Collins (2002) のパーセプトロンに基づくシーケンス ラベラー。
于 2012-07-22T13:04:39.267 に答える