関連するコンテンツをすばやく見つけられるように、Web サイト用の検索エンジンを構築したいと考えています。私はかなりの数の Google 検索を行い、ElasticSearch と Solr (どちらも Lucene の上にある)、および whoosh (python ベース) を発見しました。
しかし、これらの検索エンジンはすべて、データの上に「逆インデックス」を構築しているだけなのでしょうか? より質の高い検索を取得するための他のアルゴリズム的アプローチにはどのようなものがありますか?
関連する検索クエリを返す、Solr の上で協調フィルタリングを使用するこのブログ投稿に興味をそそられました。
http://www.opensourceconnections.com/2013/08/25/semantic-search-with-solr-and-python-numpy/
知っておくべき他の一般的なテクニックはありますか? ElasticSearch/Solr の上に他のライブラリがあり、プラグインして「そのまま」使用できますか?
リンクやヒントをいただければ幸いです。