非構造化ドキュメントの大規模なプールから特定のアイテムを抽出しようとしています。これらのドキュメントは、ユーザーによってさまざまな方法でフォーマットされた 1 ~ 5 ページのテキストである可能性がありますが、ほとんどの場合、少なくとも次のものが含まれます。
- 名前
- 住所(物理)
- 電子メールアドレス
- 電話番号
- ウェブサイトのURL
ドキュメントからこれらの要素を抽出して、その情報をリレーショナル データベースにロードし、これらのレコードを連絡先として処理できるセマンティック パーサーを探しています。
私が探した他のサービスは、他の目的には価値がありますが、この特定のニーズに対応していません。
考え、提案、または手がかりはありますか?