django - Django Haystack 部分文字列検索

Question

最近、django を利用したサイトに検索機能を追加して、雇用主がキーワードを使用して従業員を検索できるようにしました。ユーザーが最初に履歴書をアップロードするとき、それをテキストに変換し、ストップワードを取り除き、そのテキストをそのユーザーの TextField に追加します。Django-Haystack と Whoosh 検索バックエンジンを使用しました。

三つのこと-

1) おそらく使用しない追加機能を除けば、Solr または Xapian に切り替える具体的な利点はありますか?

2) 履歴書をテキストに変換する際に、基本的に自分で PDF にインデックスを付けます。Xapian と Solr の両方が .pdf インデックス作成をサポートしていることは知っていますが、見た目からすると、Haystack はサポートしていません。これを回避する方法に関するヒントはありますか？それとも、自分でインデックスを作成し続ける必要がありますか? その場合、キーワードのテキストファイルを提供する以上のことを行う必要がありますか?

3) キーワードがそれ自体と完全に一致する場合にのみ結果を返します。ユーザーがキーワードとして「数学」を持っている場合、「数学」を検索すると、そのユーザーが表示されます。Xapian と Solr のどちらがこれをサポートしているかは、はっきりとはわかりませんでした。考え？

提案をありがとう。当分の間、私はこれを自分自身で掘り下げ続けるつもりです。

score 6 · Accepted Answer

残念ながら、あなたの他の質問に答えるのに十分な知識はありませんが、ポイント 3 については.) Whoosh は実際にこれをサポートしています。

SearchQuerySet のオートコンプリート機能を使用する必要があります。

詳細はこちら: http://docs.haystacksearch.org/dev/autocomplete.html

私は現在、部分一致でWhooshとマッチングを使用しています。

django - Django Haystack 部分文字列検索

1 に答える 1

Related

Reference