text - テキストマイニング MS Word ドキュメント?

Question

私は約 30 の .docx ドキュメント (レジュメ) を持っており、人々の名前、スキルなどに関するデータが含まれています。この情報の一部をスプレッドシートに入力する必要があり、手作業を減らすために、テキストマイニングアプローチを使用できると考えました。

これらのドキュメントから (一種の半構造化された) 情報をマイニングするのに役立つツールやアプローチはありますか?

score 0 · Accepted Answer

私が思いつく最善の方法は、perl を使用することです。これは、Word 文書からプルして (それ自体が難しい場合があります)、perl モジュールを使用してxml スプレッドシートに入力できることを知っているからです。

私は長い間 perl を書いていないので、これを行う方法の例を提供することはできませんが、これを行うために何かをまとめるとしたら、perl をお勧めします。Python や Ruby にも同等の関数があると言う人がいると思いますが、私が使用したのは perl であり、テキストの操作/照合/解析/処理に非常に効果的であることがわかりました。

score 0 · Accepted Answer

catdoc MS Word ファイルからテキストコンテンツを抽出するhttp://www.wagner.pp.ru/~vitus/software/catdoc/ツールを使用してみてください。その後、必要なテキスト処理を行います。私はおそらくgrep、catdoc の出力に対して、履歴書に特定の単語が存在することを望んでいます。ソリューションを過度に設計しても意味がありません。

text - テキスト マイニング MS Word ドキュメント?

3 に答える 3

Related

Reference

text - テキストマイニング MS Word ドキュメント?