1

私は UIMA を初めて使用します。

UIMA と uimaFIT を使用して、航空券に関連するメール (確認メール、キャンセル メールなど) を解析し、航空券番号、フライト番号、出発時刻、到着時刻、乗客などの貴重な情報を抽出できるアプリを開発したいと考えています。名前など uimaFIT を使用してこれを達成するにはどうすればよいですか。現在、uimaFIT を使用して文字列を読み取ろうとし、正規表現を使用して情報を抽出しようとしましたが、電子メールが構造化されていないため、複雑すぎるようです。電子メールに接続し、正規表現を使用せずに解析を実行する方法に関する提案。

助言がありますか。

4

1 に答える 1

1

メールの種類 (確認メール、キャンセルメールなど) のセットは十分に小さいですか? はいの場合は、最初のステップとして、メールの種類を簡単に分類してみてください。次に、次の手順で、メールの種類に基づいてさまざまなツールを適用できます。

それ以外については、面倒でも正規表現を使用するのが最善だと思います。UIMA TextMarkerを参照して、正規表現/ルールをすばやく実装することをお勧めします。

  • チケット番号: 正規表現
  • フライト番号: 正規表現
  • 出発時間、到着時間:正規表現
  • 乗客名: 人 NER (ここでは uima の例) (またはメールの To: フィールドと一致しますか?)
于 2013-04-25T13:51:59.580 に答える