2

可能性のある Twitter ハンドルを生成し、それらが使用可能かどうかをチェックするスクリプトを作成しました。許可されているシンボルのさまざまな組み合わせを繰り返すだけです: a-z, 0-9, _. 現在、1926220 の組み合わせをチェックしています。つまり、すべての組み合わせに 1 ~ 5 個のシンボルが含まれています。簡単な結果は次のとおりです。1、2 0、および 3 シンボルの無料アカウント、7504 の無料アカウント、 4427115 の無料アカウント。

これらのリストを分析し、それらの中から人間が読める単語を見つけるアルゴリズムを書くことが可能かどうか疑問に思っています。次に例を示します。

elnsv
elnt8
eloq4
elosu
elq0_
elq15
elq46

言葉elosuは他とは異なり、スペインにはエロスと呼ばれる町さえあることがわかりました。人間はどのようにしてそのような言葉を区別するのでしょうか? さまざまな言語の音節の辞書を作成して、単語を比較してみることができると思います。式や他のアイデアで私を助けてくれませんか?

更新:実装を試してみたい方は、ここに5-symbol handlesへのリンクがあります。

4

3 に答える 3

2

英単語のマルコフ モデル (文字、バイグラムなどを使用) を学習し、生成された単語の確率を確認します。もちろん、これは絶対確実というわけではありませんが、まともな結果が得られるはずです。

発音可能なパスワードを生成する問題は非常に似ており、その分野でいくつかの作業が行われています。たとえば、この関連する質問を参照してください

于 2013-08-11T13:08:43.347 に答える