algorithm - QWERTYキーボード配列を考慮したランダムキーボードヒットの検出

Question

最近のウィキペディアの荒らし検出コンテストの勝者は、「 QWERTY キーボードレイアウトを考慮したランダムなキーボードヒットの検出」によって検出が改善される可能性があることを示唆しています。

例：woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh

すでにこれを行うソフトウェアはありますか(できれば無料でオープンソース) ?

そうでない場合、これを達成することを目標とするアクティブな FOSS プロジェクトはありますか?

そうでない場合、そのようなソフトウェアをどのように実装することをお勧めしますか?

score 7 · Accepted Answer

分析されたテキストの2つのバイグラムがQWERTY用語で近いが、英語の統計頻度がほぼゼロである場合（「fg」または「cd」のペアなど）、ランダムなキーボードヒットが含まれる可能性があります。そのようなペアがさらに見つかった場合、チャンスは大幅に増加します。

バッシングに両手を使用することを考慮したい場合は、QWERTY配列の近さについては別の文字で区切られた文字をテストしますが、バイグラムの頻度については2つのバイグラム（またはトリグラム）をテストします。たとえば、テキスト「flsjf」では、FとSでQWERTY距離を確認しますが、バイグラムFLとLS（またはトリグラムFLS）で頻度を確認します。

score 3 · Accepted Answer

2文字のシーケンスの経験分布、つまり「文字bの後に文字aが続く確率」を考えてみましょう。この確率はすべて、サイズ27x27のテーブルを満たします（スペースを文字と見なします）。

さて、これを英語/フランス語/その他のテキストの束からの履歴データと比較してください。比較のためにカルバック発散を使用します。

score 2 · Accepted Answer

私の経験では、ほとんどのキーボードマッシングはホームロウで行われる傾向があります。使用されている文字の割合が高いかどうかを確認するのはかなり簡単ですasdfjkl;。

score 1 · Accepted Answer

キーボードレイアウトに基づくアプローチを採用すると、適切な指標が得られます。QWERTY レイアウトでは、特定のテキストの約 52% の文字がキーボード文字の一番上の行からのものであることがわかります。文字の約 32% が中央の行から、14% が下の行から来ます。これは言語によってわずかに異なりますが、検出可能な非常に明確なパターンが残っています。同じ方法を使用して他のキーボードレイアウトのパターンを発見し、意味不明なテキストをチェックする前に、入力されたテキストに使用されているレイアウトを検出してください。パターンは明らかですが、この方法がより長いスクリプトで最適に機能することを考えると、この方法を 1 つの指標として使用することをお勧めします。英数字と非英数字の混合などの他の指標を使用することで、

score 0 · Accepted Answer

フレドリーの答えは、近くの文字から単語を構成する文法に拡張できます。

たとえば、、、およびをasasasasasdf接続する文法を使用して生成できます。assasddf

このような文法を使用すると、キーボード上のすべての文字（文字が隣り合っている）に展開すると、解析後、この「ぎこちない」文法で生成できるテキストの量を測定できます。

警告：もちろん、そのような文法について説明し、「ぎこちない」テキストの例をリストするテキストは、通常のスペルチェックされたテキストよりも大幅に高いスコアになります。

例のアプローチは、「h4x0rrulezzzzz!!!!!」の形式で破壊行為を捕らえないことに注意してください。

ここでの別のアプローチ（上記の方法と統合できます）は、破壊されたテキストのコーパスを統計的に分析し、破壊されたテキストの一般的な単語を取得しようとすることです。

編集：
あなたはQWERTY配列を想定しているので、私たちも英語を想定できると思いますか？

KISSはどうですか？テキストを英語のスペルチェッカーに通し、失敗した場合はおそらくジブリッシュであると結論付けます（問題は、すばやく入力したジブリッシュをランダムなナンセンスと区別したいのか、それとも非常にスペルの悪いテキストと区別したいのかということです）。

あるいは、他のキーボードレイアウト（Dvorak、誰か？）と言語を検討する場合は、テキストを使用可能なすべての言語スペルチェッカーに通してから続行します（これにより言語の自動検出も行われます）。

これはあまり効率的な方法ではありませんが、ベースラインテストとして使用できます。

注：
長期的には、破壊行為が適応し、たとえば他のウィキペディアページからの抜粋で破壊行為を開始することを想像します。これは、最終的に破壊行為として自動的に検出するのは困難です（OK、既存のテキストをチェックサムし、重複してフラグを立てることはできますが、テキストが他のソースからのものである場合、最終的には困難になります）。

algorithm - QWERTYキーボード配列を考慮したランダムキーボードヒットの検出

5 に答える 5

Related

Reference