hadoop - クリックストリームデータ分析

Question

クリックストリームデータ分析と呼ばれる興味深いシナリオに出会いました。私が知っているのは、クリックストリームデータとは何かということだけです。これと、ビジネスの最善の利益のために使用できるさまざまなシナリオと、各シナリオのさまざまなステップでデータを処理するために必要な一連のツールについて詳しく知りたい.

score 12 · Accepted Answer

クリックストリームデータとは?

これは、ユーザーがインターネットをサーフィンしているときに残した仮想の軌跡です。クリックストリームとは、ユーザーがアクセスするすべての Web サイトおよびすべての Web サイトのすべてのページ、ユーザーがページまたはサイトに滞在していた時間、ページが訪問された順序、ニュースグループなど、インターネット上のユーザーの活動の記録です。ユーザーが参加していること、さらにはユーザーが送受信するメールの電子メールアドレス。ISP と個々の Web サイトの両方が、ユーザーのクリックストリームを追跡できます。

クリックストリームデータには、ブラウザの高さ、幅、ブラウザ名、ブラウザの言語、デバイスの種類 (デスクトップ、ラップトップ、タブレット、モバイル)、収益、日、タイムスタンプ、IP アドレス、URL、カートに追加された製品の数、削除された製品、州、国、請求先の郵便番号、配送先の郵便番号など。

クリックストリームデータからより多くの情報を抽出するにはどうすればよいでしょうか?

Web 分析の領域では、サイトの訪問者と潜在的な顧客は、サブジェクトベースのデータセットのサブジェクトに相当します。次のクリックストリームデータの例を考えてみましょう。件名ベースのデータセットは行と列で構成されています (Excel スプレッドシートのように)。データセットの各行は一意の件名であり、各列はその件名に関する情報の一部です。顧客ベースの分析を行う場合は、顧客ベースのデータセットが必要になります。最も詳細な形式のクリックストリームデータは、次の図のようになります。同じ訪問者からのヒットは、まとめて色分けされています。

データサイエンティストは、クリックストリームデータからより多くの特徴を導き出します。訪問者ごとに、訪問中にいくつかのヒットがあり、長期間にわたって訪問のコレクションがあります。訪問者レベルでデータを整理する方法が必要です。このようなもの：

明らかに、データを集計するにはさまざまな方法があります。ページビュー、収益、動画ビューなどの数値データについては、平均や合計などを使用したい場合があります。これにより、顧客の行動に関するより多くの情報を得ることができます。集計されたグラフを観察すると、会社が金曜日により多くの収益を上げていることが簡単にわかります。

顧客ベースのデータセットを取得したら、さまざまな統計モデルとデータサイエンス手法を使用して、訪問者レベルでより深く、より意味のある分析にアクセスできます。データサイエンスコンサルティングには、これらの方法を活用して次のことを行う専門知識と経験があります。

チャーンのリスクが最も高い顧客を予測し、そのリスクに影響を与えている要因を特定します (顧客ベースの維持に積極的に取り組むことができます)。
個々の顧客のブランド認知度を把握
個別化された関連性の高いオファーで顧客をターゲットにする
どの顧客がコンバージョンする可能性が最も高いかを予測し、サイトがその決定にどのように影響しているかを統計的に判断します
訪問者が反応する可能性が最も高いサイトコンテンツのタイプを特定し、コンテンツエンゲージメントが価値の高い訪問を促進する方法を理解する
サイトに来る訪問者のさまざまなペルソナのプロファイルと特徴を定義し、それらとの関わり方を理解します。

次のCourseraコースにも興味があるかもしれません:

https://www.coursera.org/learn/process-mining?recoOrder=6&utm_medium=email&utm_source=recommendations&utm_campaign=recommendationsEmail~recs_email_2016_06_26_17%3A57

特殊なケースとしてクリックトレース分析があるプロセスマイニングに関するものだと思います。

score 3 · Accepted Answer

以下は、ほとんどの企業が行っていることの概要を示しています。

クライアントがイベントを渡すための REST-ful API の取り込み
イベントを Kafka に送り込む
リアルタイム計算を行うための Spark ストリーミング
Kafka から HDFS にデータをポンプし、HDFS でバッチ M/R ジョブを実行する Gobblin (または同様のもの)
リアルタイムジョブとバッチジョブの両方が、計算されたメトリクスを Druid (Lambda アーキテクチャ) に送ります。
エンドユーザーレポート/ダッシュボードの UI
アラート用の Nagios (または類似)
スタック内のすべてのレイヤーでイベントを追跡するメトリクス集約フレームワーク

私の経験からすると、かなり成熟したツールから始めて、エンドツーエンドで POC を行い、その後で試してみることができる他のツールを検討することをお勧めします。たとえば、パイプラインが成熟し始めると、非同期取り込み API (scala/akka で記述)、インラインイベント変換を行う Kafka ストリーム、リアルタイムジョブとバッチジョブの両方の Flink などを使用することもできます。

score -2 · Accepted Answer

おそらく、EDX の spark コースを見ることができます。彼らは、分析と機械学習のために Spark を使用したクリックストリームの例を使用しています。

hadoop - クリックストリーム データ分析

3 に答える 3

Related

Reference

hadoop - クリックストリームデータ分析