7

最近、django を利用したサイトに検索機能を追加して、雇用主がキーワードを使用して従業員を検索できるようにしました。ユーザーが最初に履歴書をアップロードするとき、それをテキストに変換し、ストップ ワードを取り除き、そのテキストをそのユーザーの TextField に追加します。Django-Haystack と Whoosh 検索バック エンジンを使用しました。

三つのこと-

1) おそらく使用しない追加機能を除けば、Solr または Xapian に切り替える具体的な利点はありますか?

2) 履歴書をテキストに変換する際に、基本的に自分で PDF にインデックスを付けます。Xapian と Solr の両方が .pdf インデックス作成をサポートしていることは知っていますが、見た目からすると、Haystack はサポートしていません。これを回避する方法に関するヒントはありますか?それとも、自分でインデックスを作成し続ける必要がありますか? その場合、キーワードのテキスト ファイルを提供する以上のことを行う必要がありますか?

3) キーワードがそれ自体と完全に一致する場合にのみ結果を返します。ユーザーがキーワードとして「数学」を持っている場合、「数学」を検索すると、そのユーザーが表示されます。Xapian と Solr のどちらがこれをサポートしているかは、はっきりとはわかりませんでした。考え?

提案をありがとう。当分の間、私はこれを自分自身で掘り下げ続けるつもりです。

4

1 に答える 1

6

残念ながら、あなたの他の質問に答えるのに十分な知識はありませんが、ポイント 3 については.) Whoosh は実際にこれをサポートしています。

SearchQuerySet のオートコンプリート機能を使用する必要があります。

詳細はこちら: http://docs.haystacksearch.org/dev/autocomplete.html

私は現在、部分一致でWhooshとマッチングを使用しています。

于 2011-06-07T19:40:10.060 に答える