本やウィキペディアでデータマイニングの技術的な説明を見つけることができますが、それは正確にどのような開発を伴うのでしょうか?それはツールの使用に関するものですか、それともツールの作成に関するものですか?研究開発に関しては、他のドメインと本当に大きな違いがありますか?
7 に答える
データ マイニングは、大量のデータから興味深いパターンを発見するプロセスです。これはデータのクエリではなく、ユーザー Treb が説明していることです (申し訳ありませんが Treb)。
開発者の観点から DM を理解するには、Toby Segaran による Programming Collective Intelligence という本を読む必要があります。
私の経験では (私は元データ マイナーです :-))、ツールの使用とツールの作成が混在しています。多くの場合、特定のデータ セットを分析するために必要なツールは存在しないため、最初に自分で作成する必要があります。それは非常に興味深いことですが、たとえば、私が現在行っている種類のプログラミング (組み込みワイヤレス) とはまったく異なるアプローチが必要になることがよくあります。
データマイニングとは、大量のデータから隠れたパターンを探すことです。Web 2.0 の例: News corp は、そのサイト myspace.com を大規模なデータ マインとして使用して、どの映画や製品を宣伝するかを決定します。彼らは、ユーザーがサイトに投稿するデータの傾向を特定するソフトウェアを作成します。News corp は、広告キャンペーンや市場予測に役立つ情報を収集するためにこれを行います。R&D の他のドメインとは異なり、データ提供者の観点からは受動的です。データマイニングツールは、街頭に出て、この夏に観そうな映画などを直接聞くのではなく、ユーザーが自発的に提供するデータを分析することで、それらを整理します。
ウィキペディアには実際にかなり良い記事があります: - http://en.wikipedia.org/wiki/Data_mining
私が言うように、データマイニングは、与えられたデータからパターンや傾向を見つけることです。開発者の視点は、マネーロンダリング防止のようなアプリケーションにあるかもしれません...パターンが与えられた場合、その与えられたパターンのデータを検索します。もう1つの用途は、プロジェクションソフトウェアです。データから現在の傾向を認識して調査することにより、ヒューリスティックに対して将来の結果または結果を予測します。
独自のツールを開発するのではなく、既製のツールを使用することが重要だと思います。その種のツールの学術的な例はWEKAかもしれません。もちろん、どのアルゴリズムを使用するか、データを前処理する方法 (この部分は非常に重要です) などを知る必要があります。
R&D についてはよくわかりませんが、数学、統計学、その他の数学など、ほとんどすべてのことと同じである必要があります...
開発レベルでは、データ マイニングはデータベース アプリケーションの 1 つにすぎませんが、膨大な量のデータを扱います。
マイニング自体は、データベースで特定のクエリを実行することによって行われます。重要な作業が行われるのは、クエリの作成です。もちろん、それらはデータ モデルと、顧客がどのような傾向を期待するかという仮説に依存します。したがって、クエリの微調整は通常、開発中に行うことはできませんが、システムが稼働し、ライブ データがある場合にのみ行うことができます。次に、ユーザーは仮説をテストし、クエリを調整して、探している傾向を示すことができます。
したがって、開発者の観点からすると、データのメンテナンスは約です
クライアントで大量のデータ セットを管理する (1 つのクエリで 100.000 行のデータが返される場合があります)
ユーザー (SQL やリレーショナル データベース全般について何も知らない可能性がある) に、クエリを変更して結果を表示するための効果的な方法を提供します。