最終的には、英語、ロシア語、中国語の 3 つの言語で Web サイトを作成しています。アプリケーションやデータベースでUTF-8を使えば、入出力に問題が無いといいのですが(ありますか?)
しかし、最も恐ろしいのは検索です。それは十分にクールでなければなりません。それは全文であるべきであり、インデックスなどであるべきです.形態学を理解し、ステミングを使用することなどを願っています.
まず、Zend_Search_Lucene を調べましたが、http://framework.zend.com/issues/browse/ZF/component/10021からわかるように、中国語に問題があります。:(
今、私はスフィンクスについて考えています。英語とロシア語の両方のステミングをサポートしています。中国語でどれだけうまくいくかはわかりませんし、中国語のサポートを追加するのがどれほど難しいかわかりません. http://www.sphinxsearch.com/forum/view.html?id=1554は明るい兆しですが、経験豊富な Sphinx ユーザーではないので、そこに書かれていることが理解できないと思います。
そう、
そのような「言語にとらわれない」検索の経験があり、それを私と共有できる人はいますか?
そして、検索をテストするために何かをくれませんか。英語の基本的な知識があるロシア語のネイティブ スピーカーとして、ロシア語と英語の両方の検索を自分でテストできますが、この中国語の写真のどの部分が単語であるかさえわかりません。インデックスに入れるための中国語の文字列と、期待される結果が得られるクエリをいくつか教えてください!