フライト、レンタカー、ホテルなど、さまざまな情報をメールから抽出します。この方法は、メールの本文を抽出することです。通常はHTML形式ですが、テキストである場合や、PDF / Word/RTF添付ファイルの情報を使用する場合もあります。次に、表形式(フライトテーブル、ホテルテーブルなど)で提供される情報を取得するために、正規表現を(場合によってはいくつかのステップで)適用します。HTMLを解析しますが、これはWebスクレイピングではないことに注意してください。
現在、QL2のWebQLエンジンを使用していますが、ビジネス上の理由から置き換えることを検討しています。別のエンジンでお勧めできますか?Linuxで実行され、Javaからアクセスできる必要があります(Java APIが最適ですが、Webサービスも優れたソリューションです)。また、HTML構造に基づくだけでなく、テキスト抽出の正規表現をサポートする必要があります。