私は自分の問題を解決し、上司の目の前で自分の罪を免除するために、sqlite に関するクエリを見つけようとしています。
70 000 000 行のテーブルがあります
表の列の 1 つはドメイン (ドメインと呼ばれる) であり、別の列は sourceurl と呼ばれます (これは完全な URL 文字列であり、その列のドメインは URL のドメインです)
ほとんどの場合、ソース URL は一意ですが、ドメインは一意ではなく、同じドメインから多数のソース URL を取得できます。
同じテーブルには、リダイレクト、フレーム、メンション、nofollow、alttext などのフラグである他の列も含まれています。
私が必要とするのは、次のことを行うクエリを持つことです:
null のフラグを無視します。結果のデータのうち、残りのすべての行をグループ化したいのですが、各ドメインから最大 10 行だけを選択します。
したがって、1 日の終わりには、各ドメインから 10 個のサンプル URL が必要です。これらのサンプル URL では、null でないフラグを除外する必要があります。