私は何千もの Cv を持っており、「コンピューター サイエンス」をバックグラウンドとして持つ CV を検索したいと考えています。
それで、私はググって、Lucene がこの仕事をしていることを知りました。データを Lucene にフィードする必要があり、Lucene はすべてのドキュメントをインデックス化します。
特定のテキスト (「Compuet science」など) を検索すると、結果に一致する CV が返されます。
このためには、MSword-93/MSword-2007/PDF をテキストに変換して Lucene をフィードする必要があります。
MSword2007 文書からはテキストを取得できますが、MSword 2003 からは取得できません。
多くのPDFライターがありますが、これを行うことができるPDFリーダーライブラリを入手できませんでした.
PDFリーダーライブラリとms93ドキュメントをテキストに変換することに光を当ててください。または、Lucene検索の代替手段があれば教えてください。
ありがとう、多くの回答ありがとう