私は、何百もの人間が読める文書 (ほとんどが MS Word) から構造化された情報を抽出し、それをデータベースに入れるという任務を負っています。データはドキュメント全体のテーブルにほぼ埋め込まれていますが、テーブル間には多くのテキストがあり、ドキュメントの構造は非常に似ていますが、いくつかの違いがあります。ドキュメントはかなり頻繁に変更されます (数か月ごとに更新版を入手します)。
これまでのところ、私が考えることができる唯一の実行可能なオプションは、すべてのドキュメントを手動で調べて情報を挿入/更新することですが、何らかの方法でドキュメントをスクレイピングすることが可能だと誰かが考えているかどうかここで尋ねたいと思いましたか?
ああ、データはかなり正確でなければなりません...