3

私は、何百もの人間が読める文書 (ほとんどが MS Word) から構造化された情報を抽出し、それをデータベースに入れるという任務を負っています。データはドキュメント全体のテーブルにほぼ埋め込まれていますが、テーブル間には多くのテキストがあり、ドキュメントの構造は非常に似ていますが、いくつかの違いがあります。ドキュメントはかなり頻繁に変更されます (数か月ごとに更新版を入手します)。

これまでのところ、私が考えることができる唯一の実行可能なオプションは、すべてのドキュメントを手動で調べて情報を挿入/更新することですが、何らかの方法でドキュメントをスクレイピングすることが可能だと誰かが考えているかどうかここで尋ねたいと思いましたか?

ああ、データはかなり正確でなければなりません...

4

1 に答える 1

2

RTF から FO へのコンバーターを使用して、(テーブルなしで) 同様の作業を行いました。

ドキュメントをRTFに変換してからFOに変換すると、ドキュメントの優れたXML構造が得られます。その後、簡単に解析してデータをスクレイピングできます。

于 2010-11-17T09:41:44.193 に答える