これはhttp://cssfingerprint.com用です
私はシステムを持っています (詳細については、サイトのページについてを参照してください)。
- 特定の特徴ベクトルに一致するカテゴリのランク付けされたリストを自信を持って出力する必要があります
- バイナリ特徴ベクトルは、サイト ID のリストと、このセッションがヒットを検出したかどうかです
- 特徴ベクトルは、特定の分類に対して、多少のノイズがあります (サイトは履歴から減衰し、人々は通常アクセスしないサイトにアクセスします)。
- カテゴリは、閉じていない大規模なセット (ユーザー ID) です。
- 私の総機能スペースは約 5,000 万項目 (URL) です
- 特定のテストでは、約のみをクエリできます。そのスペースの 0.2%
- これまでの結果に基づいて、何をクエリするかを決定できるのは最大 10 ~ 30 回であり、それを最大 100 ミリ秒以内に行う必要があります (ただし、後処理や関連する集計などを行うには、はるかに長い時間がかかる場合があります)。
- これまでの結果に基づいて、カテゴリの AI の確率ランキングを取得するには、ややコストがかかります。理想的には、決定は主にいくつかの安価なSQLクエリに依存します
- 任意の 2 つの特徴ベクトルが同じカテゴリであるが、異なるとは言えないことを信頼できるトレーニング データがあります (コードを忘れて新しいものを使用することで、新しいユーザー ID が作成されることがあります)。
どの機能 (サイト) がクエリに対して高い ROI を持つ可能性が最も高いかを判断するアルゴリズムが必要です (つまり、これまでのところもっともらしいカテゴリ [ユーザー] をより適切に識別し、それが特定のカテゴリであるという確実性を高めるため)。
これには、活用 (以前のテスト データに基づくテスト) と探索 (どのように機能するかを調べるには十分にテストされていないものをテストする) のバランスを取る必要があります。
アプリオリなランキングを扱う別の質問があります。これは特に、これまでに収集された結果に基づく事後ランキングに関するものです。
現時点では、他の誰かがこれまでにヒットしたすべてのものを常にテストできるほど十分なデータがありませんが、最終的にはそうではなくなり、その時点でこの問題を解決する必要があります.
これは、AI ではかなり標準的な問題であると思います。作成するコストの高いクエリに対して安価なヒューリスティックを使用しますが、AI クラスではカバーされていないため、標準的な答えがあるかどうかは実際にはわかりません。そのため、数学が多すぎない関連する読み物や、特定のアルゴリズムの提案が役立ちます。
この問題にアプローチする良い方法は何ですか?