0

Hyperloglog がどのように機能するかは知っていますが、Hyperloglog が実際に適用されるのはどのような状況か、つまり、Hyperloglog を使用する意味とその理由を理解したいですか? 実際の問題を解決するために使用したことがある場合は、共有してください。私が探しているのは、Hyperloglog の標準エラーを考えると、実際にどのアプリケーションで実際に使用されているのか、そしてなぜそれが機能するのかということです。

4

2 に答える 2

1

( 「カーディナリティ推定のアプリケーション」は広すぎますか? これを単にコメントとして追加したいのですが、収まりません)。

この主題に関する数多くの学術研究に目を向けることをお勧めします。通常、学術論文には、「主題に関する先行研究」と「主題が使用されたアプリケーション」に関する情報が含まれています。次の記事で参照されているように、関心のある参照をトラバースすることから始めることができます。

... この問題は、過去 20 年間に大きな注目を集めており、ワームの伝播やネットワーク攻撃 (サービス拒否などによる) の検出など、ネットワークおよびトラフィックの監視においてますます多くのアプリケーションが使用されています。 、および Web 上のリンクベースのスパム [3]。たとえば、ネットワーク上のデータ ストリームは一連のパケットで構成され、各パケットにはヘッダーがあり、アドレスのペア (送信元と宛先) が含まれ、その後に特定のデータの本体が続きます。さまざまなタイム スライスにおける個別のヘッダー ペアの数 (マルチセットのカーディナリティ) は、個別のアクティブなフローの数を記録するため、攻撃を検出し、トラフィックを監視するための重要な指標です。実際、ワームやウイルスは通常、多数の異なる接続を開くことによって増殖します。それらは巨大なトラフィックの中で気づかれずに通過する可能性がありますが、カーディナリティが測定されると、それらのアクティビティが明らかになります ([11] の Estan と Varghese による明快な説明を参照してください)。カーディナリティ推定器の他のアプリケーションには、自然言語テキスト [4、5]、生物学的データ [17、18]、非常に大規模な構造化データベース、または [22] の著者が報告するインターネット グラフなど、大量のデータ セットのデータ マイニングが含まれます。確率論的カーディナリティ推定器によって達成される 500 倍以上の計算上のゲイン。

于 2015-12-18T00:42:28.733 に答える
0

私の職場では、HyperLogLog を使用して、オンライン サービスのさまざまなコード パスにヒットする一意のユーザーまたは一意のデバイスの数を推定しています。たとえば、各タイプのサービス エラーの影響を受けるユーザーは何人ですか? 各機能を使用するユーザー数は? HyperLogLog を使用すると、多くの興味深い質問に答えることができます。

于 2015-12-24T10:41:52.550 に答える