SO で使用されている CAPTCHA システムに魅了されています... reCAPTCHA を機能させる「多くの要因」についてもっと知りたいです。当然のことながら、悪用の可能性があることを考えると、開発者はシステムの正確な内部動作についてはかなり沈黙を守っています...しかし、動作は十分に文書化されているため、おそらく私の好奇心はまだ満たされています:
reCAPTCHA のクローンを設計する場合、どうすればよいでしょうか?
reCAPTCHA では次のことが可能です。
- タイプミス
- 人々がそれらを行う場所で。これは、エラーに関する履歴データを取得し、それに基づいてアルゴリズムを作成する必要があることを示唆しています。
入力ミスを検出するには、データベースを広範囲に使用する必要があります。1 つはデジタル化された書籍の単語、もう 1 つは既知の単語です。
技術的な既知の詳細
- 2 つのデータベース: 1 つは既知の単語用、もう 1 つは未知の単語用
- 単語の組み合わせの後続データベース
不明な技術的詳細
- 異なるデータベースからの単語の組み合わせが表示されるように、単語をその場で分離するにはどうすればよいでしょうか? これは信号処理に関するものです。
- 2 つのデータベースからのデータをユーザーに提供するにはどうすればよいですか?
- 2 つの別々のデータベースのデータの最初の形式はどれですか? PDF?
- 2 つのデータベースのデータを組み合わせると、次の形式のデータはどれになりますか? PDF?
- データを 2 つの pdf ファイルから 1 つに結合するにはどうすればよいですか?
- 画像を効果的に回転するにはどうすればよいですか?
- 本から画像を分離するためにどのアルゴリズムが使用されていますか?
関連トピック
- 信号処理
- calculus : 単語検出のアルゴリズムのフーリエやラプラスなどのシリーズ。
- 確率論: たとえば、信頼区間が 95 の場合にのみ渡される「コンピューターと人間の」係数を持つこと
- おそらく数論: データの保存と比較を効果的に行う必要があります