SOLR は、有効な Unicode 文字を無効と見なし、それらを削除しているようです。
クエリのデバッグをオンにして、パーサーがクエリで何をしていたかを確認することで、これを「証明」しました。次に例を示します。
クエリ = 'ァ☀' (\u30a1\u2600)
SOLRがそれを使って行ったことは次のとおりです。
'debug':{ 'rawquerystring':u'\u30a1\u2600', 'querystring':u'\u30a1\u2600', 'parsedquery':u'(+DisjunctionMaxQuery((text:\u30a1)))/no_coord' , 'parsedquery_toString':u'+(text:\u30a1)',
ご覧のとおり、「ァ」では問題ありませんでしたが、「Black Sun」の文字を ATE しました。
すべてのブロックを試したわけではありませんが、⛿ (\u26ff) と ♖ (\u2656) も気に入らないことを確認しました。
私は Jetty で SOLR を使用しているため、さまざまな TomCat の問題 WRT 文字エンコーディングは適用されません。