特定のテキストの言語を検出するためにhttps://code.google.com/p/language-detection Java ライブラリを使用しています。使用されるプロファイルは、ライブラリに付属しているものです。ただし、結果が予想と驚くほど異なる場合があります。コードのどこが間違っている可能性がありますか、またはプロファイルを再生成する必要がありますか?
「ld.detect("en");」で試しました コメント済みおよびコメント解除済み。空白は言語検出に影響しますか?
LanguageDetect ld = new LanguageDetect();
ld.init("C:\\James\\languageTest\\profiles");
//ld.detect("en");
String textCurrentLine;
BufferedReader br = null;
try {
br = new BufferedReader(new FileReader("C:\\James\\failcases.txt"));
while ((textCurrentLine = br.readLine()) != null) {
System.out.println(ld.detect(textCurrentLine));
}
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
if (br != null) {
br.close();
}
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
以下は、いくつかの単語で得られるものです
Communication - en
Timing - tl
none - it
user - it
No - pt
Yes - fr
user - no
generated - da
Diagnostic - it
not supported - en
supported - en
Bus Speed - en
Protocol - it