アルゴリズムを評価しており、人工データを使用したいと考えています。
この StackOverflow answerに見られるように、アルゴリズムは 1 次元の人工データセットに対して正常に機能します。
複数の次元と特定の特性 (ノイズ、相関など) を持つデータセットのアルゴリズムをテストしたいと思います。誰かがRで「人工データセットジェネレーター」をすでに実装しましたか?
どんなフィードバックでも大歓迎です。ありがとう!
アルゴリズムを評価しており、人工データを使用したいと考えています。
この StackOverflow answerに見られるように、アルゴリズムは 1 次元の人工データセットに対して正常に機能します。
複数の次元と特定の特性 (ノイズ、相関など) を持つデータセットのアルゴリズムをテストしたいと思います。誰かがRで「人工データセットジェネレーター」をすでに実装しましたか?
どんなフィードバックでも大歓迎です。ありがとう!
wakefieldパッケージを使用して、ランダム データ セットを生成できます。
これにより、データ フレーム、時系列、相関関係の調整、生成されたデータの視覚化を簡単に作成できます。
if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)
set.seed(10)
r_data_frame(n=100,
id,
dob,
animal,
grade, grade,
death,
dummy,
grade_letter,
gender,
paragraph,
sentence
) %>%
r_na() %>%
plot(palette = "Set1")
Rのmlbench パッケージは、ベンチマーク目的でさまざまな次元と構造のデータを生成するための関数のコレクションです。これには、回帰データ セットと分類データ セットの両方が含まれます。
もちろん、これらのデータセットはすべてかなり人工的なものであり、「実際の」パフォーマンスを実際には反映していない可能性があります。これは、アルゴリズムが意図している種類の構造を反映していない可能性があるためです。しかし、少なくとも開始する場所です。