ここで、問題の言語が英語であり、使用される文字セットが基本的なASCII/ラテンアルファベットであると仮定します。
「短いURL」を生成する場合、最初に考えられるのは、大きな「コードセット」/アルファベットを使用して整数(データベース内の長いURLを参照するID)を高い「ベース」(URLに適したBase-たとえば、64)。私の特定のケースでは、最初にBase-36(数字、ラテン文字、大文字と小文字を区別しない)に正規化することを選択しました。
ただし、詳しく調べてみると、短縮URLジェネレーターが最終的にいたずらな単語やその他の一般的な単語を吐き出していることに気付く場合があります。これは非常に望ましくない場合があります。
「実際の単語」の生成を回避するための1つのオプションは、一般的な母音をすべて削除することです。
ヘッドルームをあまり犠牲にしない他の/より良い回避策はありますか?