論文を読んで、説明されているアルゴリズムを理解するのに苦労しています:
手書きサンプルの白黒デジタル画像が与えられた場合、1 文字を切り取って分析します。これは任意のサイズになる可能性があるため、アルゴリズムはこれを考慮する必要があります (より簡単な場合は、サイズが 2^nx 2^m であると想定できます)。
ここで、説明では、この画像を指定して、次のように 512 ビットの機能 (512 ビットのハッシュ) に変換すると述べています。
(192 ビット) は、3x3 のソーベル演算子で畳み込むことにより、画像の勾配を計算します。各エッジのグラデーションの方向は 12 方向に量子化されます。
(192 ビット) 構造的特徴ジェネレーターは勾配マップを取得し、近傍で勾配値の特定の組み合わせを探します。(画像の線と角を表す 8 つの異なる特徴を計算するために使用されます)
(128 ビット) 凹みジェネレーターは、8 ポイント スター演算子を使用して、4 方向の粗い凹み、穴、およびラグスケール ストロークを検出します。
画像の特徴マップは、4x4 グリッドで正規化されています。
私は今のところ、任意の画像を取得し、16 のセクションに分割し、3x3 ソーベル演算子を使用して各セクションに 12 ビットを作成する方法に苦労しています。(ただし、他の部分についての洞察がある場合は、お気軽にコメントしてください:)