2

最終的には、英語、ロシア語、中国語の 3 つの言語で Web サイトを作成しています。アプリケーションやデータベースでUTF-8を使えば、入出力に問題が無いといいのですが(ありますか?)

しかし、最も恐ろしいのは検索です。それは十分にクールでなければなりません。それは全文であるべきであり、インデックスなどであるべきです.形態学を理解し、ステミングを使用することなどを願っています.

まず、Zend_Search_Lucene を調べましたが、http://framework.zend.com/issues/browse/ZF/component/10021からわかるように、中国語に問題があります。:(

今、私はスフィンクスについて考えています。英語とロシア語の両方のステミングをサポートしています。中国語でどれだけうまくいくかはわかりませんし、中国語のサポートを追加するのがどれほど難しいかわかりません. http://www.sphinxsearch.com/forum/view.html?id=1554は明るい兆しですが、経験豊富な Sphinx ユーザーではないので、そこに書かれていることが理解できないと思います。


そう、

そのような「言語にとらわれない」検索の経験があり、それを私と共有できる人はいますか?

そして、検索をテストするために何かをくれませんか。英語の基本的な知識があるロシア語のネイティブ スピーカーとして、ロシア語と英語の両方の検索を自分でテストできますが、この中国語の写真のどの部分が単語であるかさえわかりません。インデックスに入れるための中国語の文字列と、期待される結果が得られるクエリをいくつか教えてください!

4

4 に答える 4

5

中国語や日本語などの言語の表意文字には 2 つの終端文字位置が必要なため UTF8では問題が発生するため、代わりに UTF16 を使用する必要があります

それとは別に、UTF16 をサポートする検索エンジンと要件 (ステミングなど) は問題なく動作するはずです。

于 2009-11-02T13:49:31.763 に答える
0

あなたのニーズには Google User Search で十分ではありませんか? その中で何が嫌いですか?

于 2009-11-02T11:55:53.443 に答える
0

Xapian ドキュメントから:

Xapian は Snowball Stemming Algorithms を使用します。現在、これらはデンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ハンガリー語、イタリア語、ノルウェー語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、スウェーデン語、およびトルコ語をサポートしています。また、Lovins の英語ステマー、Porter のオリジナルの英語ステマー、Kraaij-Pohlmann オランダ語ステマー、およびウムラウトを正規化するドイツ語ステマーのバリエーションの実装もあります。

ステミングの概念は当てはまりませんが、インド・ヨーロッパ語族の多くの言語にとっては確かに意味があります。

http://xapian.org/docs/stemming.html

于 2009-10-29T19:37:19.973 に答える
0

より良い中国語サポートを提供するために、sphinx に基づくオープン ソース プロジェクトを維持しています。http://code.google.com/p/sphinx-for-chinese/をご覧ください。私はロシア語についてあまり詳しくありませんが、ロシア語の単語はスペースで区切られていれば問題ありません。何か問題があればメッセージを残してください

于 2011-07-27T16:33:41.710 に答える