私は干し草の山を検索するためのwhoosh実装に支えられたdjango-oscar e-commerceを使用しています。私のショップには、ほぼ 70k のアイテムが含まれています。
>>> from catalogue.models import Product
>>> Product.objects.all().count()
69084
しかし、どうやらインデックスには 21000 個のドキュメントしか含まれていないようです:
>>> from whoosh.index import open_dir
>>> from whoosh.query import Every
>>> ix = open_dir('whoosh_index')
>>> len(list(ix.searcher().documents()))
21000
>>> len(ix.searcher().search(Every('text')))
21000
検索エンジンが私のドキュメント (製品) の一部のみをインデックス化した理由がわかりましたか? これは、21000 のラウンド数がインデックス化された (たとえば 24861 などの乱数ではない) ことは偶然ではないと思いますが、それは間違っている可能性があります。この問題の解決策はどこにありますか?