辞書アプリを書いています。ユーザーがUnicode文字を入力した場合、その文字がどの言語であるかを確認したいと思います。
例えば
字 - returns ['zh', 'ja', 'ko']
العربية - returns ['ar']
a - returns ['en', 'fr', 'de'] //and many more
й - returns ['ru', 'be', 'bg', 'uk']
検索したところ、CLDRで実行できることがわかりました https://stackoverflow.com/a/6445024/41948
またはGoogleAPIPython-Unicode文字列言語コードを検出できますか?
しかし私の場合
- 大きなcharmapdbを検索すると、多くのストレージとメモリが必要になるようです
- ネットワーク接続が必要なことに加えて、APIの呼び出しが遅すぎる
- 非常に正確である必要はありません。約80%の正しい比率が許容されます
- シンプルで速いことが主な要件です
- UCS2BMP文字だけをカバーしても問題ありません。
任意のヒント?
これをPythonとJavascriptで使用する必要があります。ありがとう!