最近、django を利用したサイトに検索機能を追加して、雇用主がキーワードを使用して従業員を検索できるようにしました。ユーザーが最初に履歴書をアップロードするとき、それをテキストに変換し、ストップ ワードを取り除き、そのテキストをそのユーザーの TextField に追加します。Django-Haystack と Whoosh 検索バック エンジンを使用しました。
三つのこと-
1) おそらく使用しない追加機能を除けば、Solr または Xapian に切り替える具体的な利点はありますか?
2) 履歴書をテキストに変換する際に、基本的に自分で PDF にインデックスを付けます。Xapian と Solr の両方が .pdf インデックス作成をサポートしていることは知っていますが、見た目からすると、Haystack はサポートしていません。これを回避する方法に関するヒントはありますか?それとも、自分でインデックスを作成し続ける必要がありますか? その場合、キーワードのテキスト ファイルを提供する以上のことを行う必要がありますか?
3) キーワードがそれ自体と完全に一致する場合にのみ結果を返します。ユーザーがキーワードとして「数学」を持っている場合、「数学」を検索すると、そのユーザーが表示されます。Xapian と Solr のどちらがこれをサポートしているかは、はっきりとはわかりませんでした。考え?
提案をありがとう。当分の間、私はこれを自分自身で掘り下げ続けるつもりです。