0

非構造化ドキュメントの大規模なプールから特定のアイテムを抽出しようとしています。これらのドキュメントは、ユーザーによってさまざまな方法でフォーマットされた 1 ~ 5 ページのテキストである可能性がありますが、ほとんどの場合、少なくとも次のものが含まれます。

  • 名前
  • 住所(物理)
  • 電子メールアドレス
  • 電話番号
  • ウェブサイトのURL

ドキュメントからこれらの要素を抽出して、その情報をリレーショナル データベースにロードし、これらのレコードを連絡先として処理できるセマンティック パーサーを探しています。

私が探した他のサービスは、他の目的には価値がありますが、この特定のニーズに対応していません。

考え、提案、または手がかりはありますか?

4

1 に答える 1

0

あなたはあなたの質問へのリードを見つけましたか?私はいくつかの研究記事を見つけました:

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

しかし、これらのアイデアの実装に関するコードの具体例はありません。

これも見てください:stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(申し訳ありませんが、httpを除外しました。このシステムでは、複数のURL /リンクを投稿することはできません)

于 2010-07-26T20:52:53.823 に答える