カスタム検索エンジンを開発しており、各単語を適切な言語固有のステマーに渡す必要があります。
私は最近、UTF8 バッファの印象的な言語検出を提供するCompact Language Detector (CLD) http://blog.mikemccandless.com/2011/10/language-detection-with-googles-compact.htmlを発見しました。
CLD は特定のバッファーの言語を検出するのに優れていますが、バッファーから単語境界を抽出し、これらの単語ごとに言語を検出する必要があります。
何か案は?