私は約 30 の .docx ドキュメント (レジュメ) を持っており、人々の名前、スキルなどに関するデータが含まれています。この情報の一部をスプレッドシートに入力する必要があり、手作業を減らすために、テキスト マイニング アプローチを使用できると考えました。
これらのドキュメントから (一種の半構造化された) 情報をマイニングするのに役立つツールやアプローチはありますか?
私は約 30 の .docx ドキュメント (レジュメ) を持っており、人々の名前、スキルなどに関するデータが含まれています。この情報の一部をスプレッドシートに入力する必要があり、手作業を減らすために、テキスト マイニング アプローチを使用できると考えました。
これらのドキュメントから (一種の半構造化された) 情報をマイニングするのに役立つツールやアプローチはありますか?
私が思いつく最善の方法は、perl を使用することです。これは、Word 文書からプルして (それ自体が難しい場合があります)、perl モジュールを使用してxml スプレッドシートに入力できることを知っているからです。
私は長い間 perl を書いていないので、これを行う方法の例を提供することはできませんが、これを行うために何かをまとめるとしたら、perl をお勧めします。Python や Ruby にも同等の関数があると言う人がいると思いますが、私が使用したのは perl であり、テキストの操作/照合/解析/処理に非常に効果的であることがわかりました。
catdoc
MS Word ファイルからテキスト コンテンツを抽出するhttp://www.wagner.pp.ru/~vitus/software/catdoc/ツールを使用してみてください。その後、必要なテキスト処理を行います。私はおそらくgrep
、catdoc の出力に対して、履歴書に特定の単語が存在することを望んでいます。ソリューションを過度に設計しても意味がありません。