nlp - メッセージから特定の情報を自動的に抽出するには、機械学習のどの領域を調べる必要がありますか

Question

受信メッセージから情報を抽出するアプリがあります。メッセージにはすべて同じ情報が含まれていますが、送信元によって形式が異なります。

例：

ソースAからのメッセージ：

A: You spent $50.00 at Macy's on 2/20/12

ソースBからのメッセージ：

Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00

ただし、単一のソースからのすべてのメッセージの形式は同じです。そのため、現時点では、正規表現のセットを記述して、デコードしようとしているメッセージ（つまり、メッセージの送信元であるため、メッセージの形式がわかっている）を最初に識別し、次に抽出することで実行しています。メッセージからの必要な情報（上記の例では、取引金額、取引が発生した店舗、および日付を知りたい）。メッセージの新しいソースを発見した場合、またはソースがメッセージの形式を変更した場合（あまり頻繁には発生しませんが、発生する可能性があります）、そのメッセージの正規表現を手動で作成する必要があります。ただし、ある種の機械学習手法を使用してこれを自動化できると確信しています。機械学習についてはよくわかりません。私の問題に当てはまるテクニックをどこから探し始めるかさえわかりません。誰かが私をどこから読み始めるかについて正しい方向に向けてほしいと思います。

score 3 · Accepted Answer

金額、日付、人名、および同様の情報を検出してラベルを付けるために、固有表現認識と呼ばれる手法を使用できます。Stanford Named Entity Recognizerには、トレーニング済みのすぐに使用できるモデルが付属しています。また、これまでに生成したラベル付きデータを使用して、アプリケーションのカスタムモデルを学習します。この目的で使用される標準的な手法は、Conditional Random Fields または Sequence Perceptron です。これらのモデルを実装する多くのツールキットがあります。

Wapiti - シンプルで高速な識別シーケンスラベリングツールキット.
Sequor - Collins (2002) のパーセプトロンに基づくシーケンスラベラー。

nlp - メッセージから特定の情報を自動的に抽出するには、機械学習のどの領域を調べる必要がありますか

1 に答える 1

Related

Reference