過去 3 年ほどの間、私は R を毎日使用しており、その毎日の使用の大部分は機械学習/データ マイニングの問題に費やされています。
私は大学在学中、Matlab の専属ユーザーでした。当時、これは優れたツール/プラットフォームのセットだと思っていました。今日もきっとそうだ。
Neural Network Toolbox、Optimization Toolbox、Statistics Toolbox、Curve Fitting Toolbox は、ML/データ マイニングの作業に MATLAB を使用する人にとって (必須ではないにしても) それぞれ非常に望ましいものですが、それらはすべてベースの MATLAB 環境から分離されています。つまり、個別に購入する必要があります。
R で ML/データ マイニングを学習するための私のトップ 5 リスト:
これはいくつかのことを指します: まず、すべてが規則で始まる R パッケージのグループ( CRAN から入手可能)。Project Homepageで完全なリスト (arules、aruluesViz など) を見つけることができます。次に、これらのパッケージはすべて、 Market-Basked AnalysisまたはAssociation Rulesとして知られるデータ マイニング手法に基づいています。多くの点で、このアルゴリズム ファミリはデータ マイニングの本質です。大規模なトランザクション データベースを徹底的に走査し、それらのデータベース内のフィールド (変数または特徴) 間の平均以上の関連性または相関関係を見つけます。実際には、それらをデータ ソースに接続し、夜間に実行させます。上記のセットの中心となる R パッケージはルールと呼ばれます; arulesの CRAN パッケージ ページには、 arules パッケージおよび一般的なアソシエーション ルール手法に関するいくつかの優れた二次ソース ( R のレキシコンのビネット) へのリンクがあります。
この本の最新版は、デジタル形式で無料で入手できます. 同様に、本のウェブサイト (すぐ上にリンクされています) には、ESL で使用されるすべてのデータ セットがあり、無料でダウンロードできます。(余談ですが、私は無料のデジタル版を持っています。BN.com からハードカバー版も購入しました。デジタル版のカラー プロットはすべてハードカバー版で再現されています。) ESL には、主要な ML ルーブリックのほとんど (ニューラル メトワーク、SVM、KNN など)。教師なし手法 (LDA、PCA、MDS、SOM、クラスタリング)、さまざまな種類の回帰、CART、ベイジアン手法、モデル集約手法 (ブースティング、バギング) およびモデル チューニング (正則化)。最後に、本に付属する R パッケージを CRAN から取得します (これにより、データセットを入力するためにダウンロードする手間が省けます)。
R で利用できる +3,500 個のパッケージは、ドメインごとに約 30 個のパッケージ ファミリまたは「タスク ビュー」に分割されています。機械学習は、これらのファミリーの 1 つです。Machine Learning タスク ビューには、約 50 ほどのパッケージが含まれています。これらのパッケージの一部は、e1071 (通常の ML カテゴリのかなりの数の作業コードを含む無秩序な ML パッケージ) を含むコア ディストリビューションの一部です。
予測分析でタグ付けされた投稿に特に焦点を当てる
コードを徹底的に研究すること自体が、R での ML の優れた入門書になるでしょう。
そして、私が優れていると思うものの、トップ 5 には入らなかったリソースを最後に 1 つ挙げます。
ブログA Beautiful WWWに投稿