randomSplit メソッドを使用してランダムに分割できることはわかっています。
val splittedData: Array[Dataset[Row]] =
preparedData.randomSplit(Array(0.5, 0.3, 0.2))
「nonRandomSplit メソッド」を使用して、データを連続した部分に分割できますか?
アパッチ スパーク 2.0.1。前もって感謝します。
UPD: データの順序は重要です。「ID が小さい」データでモデルをトレーニングし、ID が大きいデータでモデルをテストします。そのため、データをシャッフルせずに連続した部分に分割したいと考えています。
例えば
my dataset = (0,1,2,3,4,5,6,7,8,9)
desired splitting = (0.8, 0.2)
splitting = (0,1,2,3,4,5,6,7), (8,9)
私が考えることができる唯一の解決策は、countとlimitを使用することですが、おそらくもっと良い方法があります。