私はSolr(SolrCloud)を使用して、ツイートのインデックス作成と検索を行っています。ツイート数は約1600万件で、インデックスサイズは約3GBです。ツイートはリアルタイムでインデックスに登録されるため、リアルタイム検索が可能になります。現在lowercase
、ツイートの本文フィールドにはフィールドタイプを使用しています。検索内の単一の検索用語の場合、約7秒かかり、各検索用語を追加すると、検索にかかる時間は直線的に増加します。3GBは、solrプロセスに割り当てられる最大RAMです。サンプルのSolr検索クエリは次のようになります
tweet_body:*big* AND tweet_body:*data* AND tweet_tag:big_data
検索速度を向上させるための提案はありますか?現在、ツイートコレクション全体を含むシャードを1つだけ実行しています。