パンダでかなり大きなCSVファイルを読み取って、2つのランダムなチャンクに分割しようとしています。1つはデータの10%で、もう1つは90%です。
これが私の現在の試みです:
rows = data.index
row_count = len(rows)
random.shuffle(list(rows))
data.reindex(rows)
training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]
何らかの理由sklearn
で、SVM分類器内でこれらの結果のDataFrameオブジェクトの1つを使用しようとすると、このエラーがスローされます。
IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis
私はそれを間違っていると思います。これを行うためのより良い方法はありますか?