私が与えられたテキスト(長いまたは短いの両方)を持っている場合、あなたは通常どの方法でそれが書かれている言語を検出しますか?
は明らかです:
- 使用するモデルをトレーニングするには、トレーニングコーパスが必要です(使用する場合はニューラルネットワークなど)。
私の頭に浮かぶ最も簡単なことは次のとおりです。
- テキストで使用されている文字を確認してください(たとえば、ひらがなは日本語でのみ使用され、ウムラウトはおそらくヨーロッパの言語でのみ使用されます。フランス語、トルコ語、…)
- 言語の特定の組み合わせを見つけるには、チェックを2文字または3文字のペアに増やします
- 辞書を検索して、どの単語がどの言語で出現するかを確認します(ステミングは言語に依存するため、おそらくステミングなしでのみ)
しかし、もっと良い方法があると思います。私は既存のプロジェクトを検索していません(これらの質問はすでに回答済みです)が、隠れマルコフモデル、ニューラルネットワークなどの方法を検索しています…このタスクに使用できるものは何でも。