r - 分類データ用の人工データセットジェネレーター

Question

アルゴリズムを評価しており、人工データを使用したいと考えています。

この StackOverflow answerに見られるように、アルゴリズムは 1 次元の人工データセットに対して正常に機能します。

複数の次元と特定の特性 (ノイズ、相関など) を持つデータセットのアルゴリズムをテストしたいと思います。誰かがRで「人工データセットジェネレーター」をすでに実装しましたか?

どんなフィードバックでも大歓迎です。ありがとう！

score 2 · Accepted Answer

wakefieldパッケージを使用して、ランダムデータセットを生成できます。

これにより、データフレーム、時系列、相関関係の調整、生成されたデータの視覚化を簡単に作成できます。

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)

set.seed(10)

r_data_frame(n=100,
    id,
    dob,
    animal,
    grade, grade,
    death,
    dummy,
    grade_letter,
    gender,
    paragraph,
    sentence
) %>%
   r_na() %>%
   plot(palette = "Set1")

score 1 · Accepted Answer

Rのmlbench パッケージは、ベンチマーク目的でさまざまな次元と構造のデータを生成するための関数のコレクションです。これには、回帰データセットと分類データセットの両方が含まれます。

もちろん、これらのデータセットはすべてかなり人工的なものであり、「実際の」パフォーマンスを実際には反映していない可能性があります。これは、アルゴリズムが意図している種類の構造を反映していない可能性があるためです。しかし、少なくとも開始する場所です。

r - 分類データ用の人工データセット ジェネレーター

2 に答える 2

Related

Reference

r - 分類データ用の人工データセットジェネレーター