nlp - 構造化されていないソースから構造化データを生成する電子メールスクラビング用のオープンソースプロジェクトはありますか?

Question

これをどこから始めればいいのかわからないので、皆さんが私の質問を解決できることを願っています. メールで特定の単語/パターンを検索し、構造化された方法で保存するプロジェクトがあります。Trip it で行われる何か。

この記事では、DataMapper を開発したと述べています。

DataMapper は、plan [at] tripit.com 宛てのインバウンド電子メールメッセージを受け取り、メールリーダーに表示される半構造化形式から高度に構造化された XML ドキュメントに変換します。

とのコメントもあります

これを自分で構築しようとしている場合は、Wrappers と Wrapper Induction について少し読むと役立つかもしれません

私はグーグルでラッパー誘導について読みましたが、定義が広すぎて、そのような問題を解決する方法を理解するのに役立ちませんでした。

同様のことを行うオープンソースプロジェクトはありますか?

score 1 · Accepted Answer

本当に非常に幅広い質問ですが、私はあなたにいくつかの一般的なアイデアを与えることを試みることができます。それは始めるのに十分かもしれません。基本的に、複雑な構文解析の問題について話しているように聞こえます。テキストをスキャンして、特定のチャンクに意味を適用しようとしています。正確に何を探しているかに応じて、開始するいくつかの正規表現からある程度のマイレージが得られる場合があります。電話番号、電子メールアドレス、日付などは、一致するはずのかなり標準的な構造になっています。他のデータポイントは、いくつかのインジケーターワードの恩恵を受ける可能性があります。「出発」というフレーズは、後に続くのが住所であることを示している可能性があります。自然言語処理コミュニティには、テキスト処理に利用できる大規模なツールセットもあります。品詞タガーやセマンティックアナライザーなどをチェックしてください。

これらの手法を使用すると、基本的な反復型開発プロセスに従うことができます。予想される出力構造のデータポイントごとに、それをキャプチャする方法に関するいくつかの簡単なルールを定義します。次に、テストデータのバッチに対してアプリケーションを実行し、どのサンプルがそのデータをキャプチャしなかったかを確認します。サンプルを見て、それらのサンプルをキャッチするためにルールを修正してください。エクストラクタが許容レベルの精度に達するまで繰り返します。

問題の詳細によっては、そのプロセスの多くを自動化できる機械学習手法が存在する場合があります。

score 1 · Accepted Answer

これを行うには、いくつかの方法と方法があります。

最初の部分は、メールコンテンツへのアクセスに関するもので、ここでは回答しません。基本的に、電子メールのテキストにアクセスできると仮定します。アクセスできない場合は、Java をキャメルなどの電子メールボックスに接続できるライブラリがいくつかあります ( http://camel.apache.org/mail .html )。

メールが届いたので、次はどうする？

lingpipe ( http://alias-i.com/lingpipe/ ) には、独自の用語を入力できるエンティティ認識機能があります。具体的には、いくつかの抽出チュートリアルと辞書エクストラクタ ( http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html ) を見てください。 alias-i.com/lingpipe/docs/api/com/aliasi/dict/ExactDictionaryChunker.html ) 関心のある用語をインポートし、それを使用してラベルを電子メールに関連付けるだけです。

次の質問も役立つかもしれません:編集距離がゼロの辞書ベースの名前付きエンティティ認識: LingPipe、Lucene または何?

nlp - 構造化されていないソースから構造化データを生成する電子メール スクラビング用のオープン ソース プロジェクトはありますか?

2 に答える 2

Related

Reference

nlp - 構造化されていないソースから構造化データを生成する電子メールスクラビング用のオープンソースプロジェクトはありますか?