-5

私は何千もの Cv を持っており、「コンピューター サイエンス」をバックグラウンドとして持つ CV を検索したいと考えています。

それで、私はググって、Lucene がこの仕事をしていることを知りました。データを Lucene にフィードする必要があり、Lucene はすべてのドキュメントをインデックス化します。

特定のテキスト (「Compuet science」など) を検索すると、結果に一致する CV が返されます。

このためには、MSword-93/MSword-2007/PDF をテキストに変換して Lucene をフィードする必要があります。

MSword2007 文書からはテキストを取得できますが、MSword 2003 からは取得できません。

多くのPDFライターがありますが、これを行うことができるPDFリーダーライブラリを入手できませんでした.

PDFリーダーライブラリとms93ドキュメントをテキストに変換することに光を当ててください。または、Lucene検索の代替手段があれば教えてください。

ありがとう、多くの回答ありがとう

4

1 に答える 1

0

Apache Solrまたは直接Tikaを使用して、PDF および MS Word からテキストを抽出し、インデックスを作成できます。どちらも Java プロジェクトですが、PHP からサーバーを呼び出すことができます。

于 2012-05-22T10:01:03.930 に答える