0

chromium-compact-language-detector を使用して言語を検出していますが、文字列内の日本語を検出できません。

text = '1/15 HR Div.Q&CS Dept. 全体MTG 開催
1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ' 

cld.detect(smart_str(text), pickSummaryLanguage=True, removeWeakMatches=False)

output: ('ENGLISH', 'en', True, 11, [('ENGLISH', 'en', 100, 0.8103727714748784)])

提案を歓迎します。

4

1 に答える 1

0

最初にその日本語文字列を UTF8 としてエンコードする必要がある場合があります。これを試して :

import codecs
import cld
cld.detect(codecs.getencoder('UTF-8')(u'1/15 HR Div.Q&CS Dept. 全体MTG 開催1月15日(水)、赤溜オーディトリアムにてHR Div.Q&CS Dept.の全体MTGが開催されました。 ')[0])

cld日本語の lang を検出できないと思います。と呼ばれる新しいバージョンが利用可能ですcld2。ここをチェックしてください:https://code.google.com/p/cld2/wiki/CLD2FullVersion

于 2014-01-24T08:18:00.250 に答える