フレドリーの答えは、近くの文字から単語を構成する文法に拡張できます。
たとえば、、、およびをasasasasasdf
接続する文法を使用して生成できます。as
sa
sd
df
このような文法を使用すると、キーボード上のすべての文字(文字が隣り合っている)に展開すると、解析後、この「ぎこちない」文法で生成できるテキストの量を測定できます。
警告:もちろん、そのような文法について説明し、「ぎこちない」テキストの例をリストするテキストは、通常のスペルチェックされたテキストよりも大幅に高いスコアになります。
例のアプローチは、「h4x0rrulezzzzz!!!!!」の形式で破壊行為を捕らえないことに注意してください。
ここでの別のアプローチ(上記の方法と統合できます)は、破壊されたテキストのコーパスを統計的に分析し、破壊されたテキストの一般的な単語を取得しようとすることです。
編集:
あなたはQWERTY配列を想定しているので、私たちも英語を想定できると思いますか?
KISSはどうですか?テキストを英語のスペルチェッカーに通し、失敗した場合はおそらくジブリッシュであると結論付けます(問題は、すばやく入力したジブリッシュをランダムなナンセンスと区別したいのか、それとも非常にスペルの悪いテキストと区別したいのかということです)。
あるいは、他のキーボードレイアウト(Dvorak、誰か?)と言語を検討する場合は、テキストを使用可能なすべての言語スペルチェッカーに通してから続行します(これにより言語の自動検出も行われます)。
これはあまり効率的な方法ではありませんが、ベースラインテストとして使用できます。
注:
長期的には、破壊行為が適応し、たとえば他のウィキペディアページからの抜粋で破壊行為を開始することを想像します。これは、最終的に破壊行為として自動的に検出するのは困難です(OK、既存のテキストをチェックサムし、重複してフラグを立てることはできますが、テキストが他のソースからのものである場合、最終的には困難になります)。