ウィキペディアが述べているように
データ マイニング プロセスの全体的な目標は、データ セットから情報を抽出し、それを理解可能な構造に変換してさらに使用できるようにすることです。
これはビッグデータとどのように関連していますか? Hadoop は並行してデータ マイニングを行っているというのは正しいでしょうか。
ウィキペディアが述べているように
データ マイニング プロセスの全体的な目標は、データ セットから情報を抽出し、それを理解可能な構造に変換してさらに使用できるようにすることです。
これはビッグデータとどのように関連していますか? Hadoop は並行してデータ マイニングを行っているというのは正しいでしょうか。
この回答は、Anony-Mousse からの優れた回答に具体性を追加することを実際に意図しています。
ビッグデータとは何かについては、多くの議論があります。Anony-Mousse は、分析、ビッグデータ、データ マイニングなどの用語の乱用に関する多くの問題をここで指摘しましたが、さらに詳しく説明したいことがいくつかあります。
ビッグデータ
私が聞いたビッグデータの最良の定義は、従来のリレーショナル データベースでは不便であるか機能しないデータです。これは、処理できない 1 PB のデータである場合もあれば、1 GB で 5,000 列あるデータである場合もあります。
これは緩やかで柔軟な定義です。それを回避できるセットアップまたはデータ管理ツールは常に存在しますが、これは、Hadoop、MongoDB などのツールを以前のテクノロジーよりも効率的に使用できる場所です。
このように不便/大規模/扱いにくいデータで何ができるでしょうか? 単純にスプレッドシートを見て意味を見つけるのは難しいため、データ マイニングや機械学習をよく使用します。
データマイニング
これは上で軽く述べましたが、ここでの私の目標は、より具体的にすることであり、できればより多くのコンテキストを提供することです。データマイニングは、一般に、データ分析のための、ある程度監視された分析的または統計的方法に適用されます。これらは、回帰、分類、クラスタリング、または協調フィルタリングに適合する場合があります。機械学習と多くの重複がありますが、これは一般的に、機械学習をかなり適切に定義する教師なしまたは自動化された実行ではなく、ユーザーによって駆動されます。
機械学習
多くの場合、機械学習とデータ マイニングは同じ意味で使用されます。機械学習には、データ マイニングと同じ多くの領域が含まれますが、AI、コンピューター ビジョン、およびその他の教師なしタスクも含まれます。主な違い (これは間違いなく簡略化です) は、ユーザー入力が不要であるだけでなく、一般的に不要であることです。目標は、開発の反復サイクルではなく、これらのアルゴリズムまたはシステムが自己最適化して改善することです。
ビッグ データは、データ マイニングを含む非常に大規模なデータ セットで奇跡を起こすことができるフレームワークとツールのコレクションで構成される TERM です。
Hadoop
は、非常に大きなデータ セットをブロック (デフォルトでは 64 mb) に分割し、HDFS
(Hadoop 分散ファイル システム) に格納し、その実行ロジック( MapReduce
) が にbytecode
格納されたデータを処理するために付属するフレームワークですHDFS
。ブロックに基づいて分割し(分割を構成できます)、MapperおよびReducerプロセスを介して抽出と計算を課します。このようにして、ETL プロセス、データマイニング、データ計算などを行うことができます。
ビッグ データは、非常に大きなデータ セットを操作できる用語であると結論付けたいと思います。Hadoop
は、そのコンポーネントとサービスを使用して並列処理を非常にうまく実行できるフレームワークです。そうすれば、データマイニングも習得できます..
ビッグ データとは、最近のストレージがいかに安価で簡単であるか、およびデータを分析できるようにする方法を示すために人々が使用する用語です。
データマイニングは、データから有用な情報を抽出しようとするプロセスです。
通常、データ マイニングは 2 つの理由でビッグ データに関連しています。
Hadoop は並列データマイニングと言えますか? ハドゥープとは?彼らのサイトは言う
The Apache Hadoop software library is a framework that allows for the
distributed processing of large data sets across clusters of computers
using simple programming models
したがって、あなたの声明の「並行」部分は真実です。その「データマイニング」部分は必ずしもそうではありません。たとえば、hadoop を使用して大量のデータを要約することはできますが、これは必ずしもデータ マイニングではありません。しかし、ほとんどの場合、人々は Hadoop を使用してビッグ データから有用な情報を抽出しようとしているに違いないので、これは一種のイエスです。
BigData は、新しいビジネス ニーズに対応するための最新化されたフレームワークであると言えます。多くの人が知っているように、BigData はボリューム、多様性、速度の 3 つの v に関するものです。BigData は、さまざまなデータ (構造化データと非構造化データ) を活用し、クラスタリング手法を使用してボリュームの問題に対処し、より短い時間で結果を得る必要があります。
データマイニングはETLの原則に基づいています。つまり、モデリング技術を使用して大規模なデータセットから有用な情報を見つけます。これを実現するための BI ツールが数多く市場に出回っています。