IR、ML、データ マイニングという用語はよく使われますが、これらの間に多くの重複があることに気付きました。
これらの分野での経験を持つ人々から、これらの間の境界線を正確に引くものは何ですか?
IR、ML、データ マイニングという用語はよく使われますが、これらの間に多くの重複があることに気付きました。
これらの分野での経験を持つ人々から、これらの間の境界線を正確に引くものは何ですか?
これは 1 人の人間 (正式に ML のトレーニングを受けた) の見解にすぎません。他の人は物事を全く違う見方をするかもしれません。
機械学習は、おそらくこれら 3 つの用語の中で最も均質であり、最も一貫して適用されています。パターン抽出(またはパターン マッチング)アルゴリズム自体に限定されています。
あなたが言及した用語の中で、「機械学習」は、学部がカリキュラム、学部、研究プログラムを説明するために最もよく使用する用語であり、学術雑誌や会議の議事録で最もよく使用される用語です。ML は明らかに、あなたが言及した用語の中で最もコンテキストに依存しないものです。
情報検索とデータ マイニングは、ユーザー クエリから関連する結果の検索/配信まで、完全な商用プロセスの記述に非常に近いものです。ML アルゴリズムはそのプロセス フローのどこかにある可能性があり、より洗練されたアプリケーションではしばしばそうですが、それは正式な要件ではありません。さらに、データ マイニングという用語は、通常、ビッグ データ(つまり、> 2BG)に対する何らかのプロセス フローの適用を指すように思われるため、通常、そのワークフローの前に分散処理 (map-reduce) コンポーネントが含まれます。
したがって、情報検索 (IR) とデータ マイニング (DM) は、インフラストラクチャ アルゴリズムの機械学習 (ML) に関連しています。一種の方法。つまり、機械学習は、情報検索の問題を解決するために使用されるツールの 1 つのソースです。しかし、それはツールの 1 つのソースにすぎません。しかし、IR は ML に依存しません。たとえば、特定の IR プロジェクトは、ユーザーの検索クエリ IR に応答する完全にインデックス化されたデータの格納と迅速な取得である場合があります。その核心は、データ フローのパフォーマンスの最適化です。つまり、 、クエリからユーザーに検索結果を配信するまでの往復。ここでは、予測またはパターン マッチングは役に立たない可能性があります。同様に、DM プロジェクトは予測エンジンに ML アルゴリズムを使用する場合がありますが、DM プロジェクトは処理フロー全体にも関与する可能性が高くなります。
最後に、Netflix賞について考えてみましょう。このコンテストは、機械学習のみに向けられました。焦点は予測アルゴリズムにありました。これは、アルゴリズムによって返される予測の精度という 1 つの成功基準があるという事実によって証明されています。「Netflix Prize」がデータ マイニング コンペティションとしてブランド変更されたと想像してみてください。成功基準はほぼ間違いなく、実際の商用環境でのアルゴリズムのパフォーマンスにさらに正確にアクセスできるように拡張されます。したがって、たとえば、全体的な実行速度 (レコメンデーションがユーザーにどれだけ迅速に配信されるか) が、おそらく精度とともに考慮されるでしょう。
「情報検索」と「データ マイニング」という用語は現在主流で使用されていますが、しばらくの間、これらの用語は自分の職務記述書やベンダーの文献 (通常は「ソリューション」という言葉の隣) でしか見ませんでした。最近、「データマイニング」アナリストを雇いました。彼が何をしているのか正確にはわかりませんが、彼は毎日ネクタイを締めて仕事をしています。
私は次のように線を引こうとします:
情報検索とは、すでにデータの一部になっているものをできるだけ早く見つけることです。
機械学習は、既存の知識を可能な限り正確に新しいデータに一般化する手法です。
データマイニングとは、主に、データに隠されている、以前は知らなかったものを可能な限り「新しい」ものとして発見することです。
それらは交差し、しばしば互いに技術を使用します。DMとIRはどちらも、インデックス構造を使用してプロセスを高速化します。DMは多くのML手法を使用します。たとえば、一般化に役立つデータセットのパターンは新しい知識かもしれません。
それらはしばしば分離するのが難しいです。自分に賛成して、流行語だけに行くのではありません。私の意見では、それらを区別する最良の方法は、上記のように、それらの意図によるものです。データを検索し、新しいデータに一般化し、既存のデータの新しいプロパティを検索します。
あなたが言及した3つと重複する別の2つの領域として、パターン認識と(計算?)統計を追加することもできます。
それらの間に明確な境界線はないと思います。それらを分けているのは、その歴史と強調点です。統計は数学的厳密性を重視し、データ マイニングは大規模なデータセットへのスケーリングを重視し、ML はその中間です。
データ マイニングとは、隠されたパターンや未知の知識を発見することであり、人々の意思決定に使用できます。
機械学習とは、モデルを学習して新しいオブジェクトを分類することです。