現在、特にスポーツイベントが発生した場合、一部のスパムの波がインターネットに殺到しています。
スパマーのユーザー名がコンピューターで生成されたものではないことを強く疑うので、何らかの方法でスパマーの名前をプログラムで学習してみるのは面白いかもしれないと思いました。
ユーザー名は2〜15文字で、文字で始まり、文字、数字、_
または。のみを含める必要があり-
ます。
名前のサンプルリストは次のようになります
riazsports0171
maya34444
thelmaeatons
tigran777
newlive100
darbeshbaba
litondina10
nithuhasan
newlive100
bankuali
lldztwydni554
monomala505
nasiruddin1500
lldztwydni554
ariful3032
nazmulhasan
私は(大学から)アルゴリズムのかなり基本的な知識しか持っていません。私の質問は、任意のユーザー名がおそらくスパマーであるかどうかを予測するために使用できる機械学習アルゴリズムや文字列メトリックです。かなり単純なので、コサイン文字列similaritzを使用することを考えました。