-2

私は約 30 の .docx ドキュメント (レジュメ) を持っており、人々の名前、スキルなどに関するデータが含まれています。この情報の一部をスプレッドシートに入力する必要があり、手作業を減らすために、テキスト マイニング アプローチを使用できると考えました。

これらのドキュメントから (一種の半構造化された) 情報をマイニングするのに役立つツールやアプローチはありますか?

4

3 に答える 3

0

私が思いつく最善の方法は、perl を使用することです。これは、Word 文書からプルして (それ自体が難しい場合があります)、perl モジュールを使用してxml スプレッドシートに入力できることを知っているからです。

私は長い間 perl を書いていないので、これを行う方法の例を提供することはできませんが、これを行うために何かをまとめるとしたら、perl をお勧めします。Python や Ruby にも同等の関数があると言う人がいると思いますが、私が使用したのは perl であり、テキストの操作/照合/解析/処理に非常に効果的であることがわかりました。

于 2012-04-27T18:22:48.937 に答える
0

catdoc MS Word ファイルからテキスト コンテンツを抽出するhttp://www.wagner.pp.ru/~vitus/software/catdoc/ツールを使用してみてください。その後、必要なテキスト処理を行います。私はおそらくgrep、catdoc の出力に対して、履歴書に特定の単語が存在することを望んでいます。ソリューションを過度に設計しても意味がありません。

于 2012-05-08T05:14:00.987 に答える