hadoop - ビッグデータとデータマイニングの違いは何ですか?

Question

ウィキペディアが述べているように

データマイニングプロセスの全体的な目標は、データセットから情報を抽出し、それを理解可能な構造に変換してさらに使用できるようにすることです。

これはビッグデータとどのように関連していますか? Hadoop は並行してデータマイニングを行っているというのは正しいでしょうか。

score 4 · Accepted Answer

この回答は、Anony-Mousse からの優れた回答に具体性を追加することを実際に意図しています。

ビッグデータとは何かについては、多くの議論があります。Anony-Mousse は、分析、ビッグデータ、データマイニングなどの用語の乱用に関する多くの問題をここで指摘しましたが、さらに詳しく説明したいことがいくつかあります。

ビッグデータ

私が聞いたビッグデータの最良の定義は、従来のリレーショナルデータベースでは不便であるか機能しないデータです。これは、処理できない 1 PB のデータである場合もあれば、1 GB で 5,000 列あるデータである場合もあります。

これは緩やかで柔軟な定義です。それを回避できるセットアップまたはデータ管理ツールは常に存在しますが、これは、Hadoop、MongoDB などのツールを以前のテクノロジーよりも効率的に使用できる場所です。

このように不便/大規模/扱いにくいデータで何ができるでしょうか? 単純にスプレッドシートを見て意味を見つけるのは難しいため、データマイニングや機械学習をよく使用します。

データマイニング

これは上で軽く述べましたが、ここでの私の目標は、より具体的にすることであり、できればより多くのコンテキストを提供することです。データマイニングは、一般に、データ分析のための、ある程度監視された分析的または統計的方法に適用されます。これらは、回帰、分類、クラスタリング、または協調フィルタリングに適合する場合があります。機械学習と多くの重複がありますが、これは一般的に、機械学習をかなり適切に定義する教師なしまたは自動化された実行ではなく、ユーザーによって駆動されます。

機械学習

多くの場合、機械学習とデータマイニングは同じ意味で使用されます。機械学習には、データマイニングと同じ多くの領域が含まれますが、AI、コンピュータービジョン、およびその他の教師なしタスクも含まれます。主な違い (これは間違いなく簡略化です) は、ユーザー入力が不要であるだけでなく、一般的に不要であることです。目標は、開発の反復サイクルではなく、これらのアルゴリズムまたはシステムが自己最適化して改善することです。

score 3 · Accepted Answer

ビッグデータは、データマイニングを含む非常に大規模なデータセットで奇跡を起こすことができるフレームワークとツールのコレクションで構成される TERM です。

Hadoopは、非常に大きなデータセットをブロック (デフォルトでは 64 mb) に分割し、HDFS(Hadoop 分散ファイルシステム) に格納し、その実行ロジック( MapReduce) がにbytecode格納されたデータを処理するために付属するフレームワークですHDFS。ブロックに基づいて分割し（分割を構成できます）、MapperおよびReducerプロセスを介して抽出と計算を課します。このようにして、ETL プロセス、データマイニング、データ計算などを行うことができます。

ビッグデータは、非常に大きなデータセットを操作できる用語であると結論付けたいと思います。Hadoopは、そのコンポーネントとサービスを使用して並列処理を非常にうまく実行できるフレームワークです。そうすれば、データマイニングも習得できます..

score 2 · Accepted Answer

ビッグデータとは、最近のストレージがいかに安価で簡単であるか、およびデータを分析できるようにする方法を示すために人々が使用する用語です。

データマイニングは、データから有用な情報を抽出しようとするプロセスです。

通常、データマイニングは 2 つの理由でビッグデータに関連しています。

多くのデータがある場合、パターンはそれほど明白ではないため、誰かが検査して「ははは」と言うことができませんでした。そのためのツールが必要です。
多くの場合、サンプルが大きくなるため、多くのデータが分析にとって意味のある統計を改善する可能性があります。

Hadoop は並列データマイニングと言えますか? ハドゥープとは？彼らのサイトは言う

The Apache Hadoop software library is a framework that allows for the 
distributed processing of large data sets across clusters of computers 
using simple programming models

したがって、あなたの声明の「並行」部分は真実です。その「データマイニング」部分は必ずしもそうではありません。たとえば、hadoop を使用して大量のデータを要約することはできますが、これは必ずしもデータマイニングではありません。しかし、ほとんどの場合、人々は Hadoop を使用してビッグデータから有用な情報を抽出しようとしているに違いないので、これは一種のイエスです。

score 1 · Accepted Answer

BigData は、新しいビジネスニーズに対応するための最新化されたフレームワークであると言えます。多くの人が知っているように、BigData はボリューム、多様性、速度の 3 つの v に関するものです。BigData は、さまざまなデータ (構造化データと非構造化データ) を活用し、クラスタリング手法を使用してボリュームの問題に対処し、より短い時間で結果を得る必要があります。

データマイニングはETLの原則に基づいています。つまり、モデリング技術を使用して大規模なデータセットから有用な情報を見つけます。これを実現するための BI ツールが数多く市場に出回っています。

hadoop - ビッグデータとデータマイニングの違いは何ですか?

6 に答える 6

Related

Reference