そこで、問題と質問を次に示します。
HTML5 Canvas でドキュメント ページを分析し、ボックス、ラベル、テキスト ブロック、画像、テーブルなどの特定の機能を検出しています。Canvas はピクセルの読み取り/書き込みが遅く、画像は高解像度である必要があるためです。精度例:1500 x 2500、複数のパスは言うまでもなく、すべてのピクセルを分析する余裕はありません。
私のアルゴリズムは、いくつかのランダムなピクセル ポークを実行し、最小限の分析を行って、さらに処理するために使用できる境界ボックスがあるかどうか、および実行する必要がある処理の種類を見つけます。OCR など、一部の部分はサーバーに送信される場合があります。
後続のすべてのランダム ポークは、正常に見つかったバウンディング ボックスの増加するリストと照合してチェックし、未知の海域に到達するまで他の場所でポークします。この手法は驚くほど単純で効果的ですが、これにより余分なランダム ポークが大量に発生し、大量のポーク カウント (面積の 1%) がなければ一貫した結果が得られず、それでも断続的にいくつかの部分が失われます。
すばらしいのは、突き出されていない領域がすべての境界ボックスの外側にある場所を教えてくれる空間分析アルゴリズムを実装して、x/y ランダム座標の選択をそこだけに制限できるようにすることです。これにより、有効性と速度が大幅に向上するはずです。
完全に分析されたドキュメント ページの通常のボックス数は 200 未満です。
JavaScriptでこれをかなり高速に実行できるアルゴリズムがパブリックドメイン/ウィキに存在しますか?