データフレームから選択した数の行をランダムに選択したいのですが、サンプルメソッドがこれを行うことは知っていますが、ランダム性が均一サンプリングであるべきだと心配していますか? それで、Dataframes での Spark のサンプル メソッドが統一されているかどうか疑問に思っていました。
ありがとう
データフレームから選択した数の行をランダムに選択したいのですが、サンプルメソッドがこれを行うことは知っていますが、ランダム性が均一サンプリングであるべきだと心配していますか? それで、Dataframes での Spark のサンプル メソッドが統一されているかどうか疑問に思っていました。
ありがとう
ここにはいくつかのコード パスがあります。
withReplacement = false && fraction > .4
は、強化された乱数ジェネレーター ( rng.nextDouble() <= fraction
) を使用し、それを機能させます。これでかなり均一になりそうです。withReplacement = false && fraction <= .4
より複雑なアルゴリズム ( ) を使用している場合、これGapSamplingIterator
もかなり均一に見えます。一見、これも均一に見えるwithReplacement = true
、同じことに近い場合、これは最初の2つほど均一ではないように見えますはい、それは均一です。詳細については、以下のコードを試すことができます。これが明確になることを願っています。
「データ」があなたのデータフレームである場合、これでうまくいくはずです。val splits = data.randomSplit(Array(0.7, 0.3)) val (trainingData, testData) = (splits(0), splits(1))