text - 非構造化テキストファイルから人口統計情報と連絡先情報を抽出する

Question

非構造化ドキュメントの大規模なプールから特定のアイテムを抽出しようとしています。これらのドキュメントは、ユーザーによってさまざまな方法でフォーマットされた 1 ～ 5 ページのテキストである可能性がありますが、ほとんどの場合、少なくとも次のものが含まれます。

ドキュメントからこれらの要素を抽出して、その情報をリレーショナルデータベースにロードし、これらのレコードを連絡先として処理できるセマンティックパーサーを探しています。

私が探した他のサービスは、他の目的には価値がありますが、この特定のニーズに対応していません。

考え、提案、または手がかりはありますか？

score 0 · Accepted Answer

あなたはあなたの質問へのリードを見つけましたか？私はいくつかの研究記事を見つけました：

www.cis.upenn.edu/~pereira/papers/crf.pdf

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.9192&rep=rep1&type=pdf

www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta04extracting.pdf

しかし、これらのアイデアの実装に関するコードの具体例はありません。

これも見てください：stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

（申し訳ありませんが、httpを除外しました。このシステムでは、複数のURL /リンクを投稿することはできません）

text - 非構造化テキスト ファイルから人口統計情報と連絡先情報を抽出する