python - 機械学習用のデータセットを準備する正しい方法は何ですか?

翻译自：https://stackoverflow.com/questions/19360793 2013-10-14T12:59:09.660

4746 次

はじめに、この投稿を読んでいただきありがとうございます。

私は機械学習に関して初心者であり、ML を使用して一部のデータを分類しようとしています。これで、デシジョンツリー、クラスタリング、ニューラルネットワークなどの教師ありおよび教師なし学習アルゴリズムに関する基本的な読み物ができました。

私が理解するのに苦労しているのは、ML の問題のためにデータセットを準備するための正しい全体的な手順です。

アルゴリズムの精度を測定できるように、ML 用のデータセットを準備するにはどうすればよいですか?

私の現在の理解では、精度を評価するには、予想される結果とアルゴリズムの決定の違いを評価するために、アルゴリズムに事前にラベル付けされた結果 (データセットの重要なサブセットから?) を入力する必要がありますか?

これが正しい場合、大規模なデータセットを事前にラベル付けするにはどうすればよいでしょうか? 私のデータセットは非常に大きく、手動でラベル付けすることはできません。

また、Python で機械学習を行うためのヒントをいただければ幸いです。

よろしくお願いします！

よろしくお願いします、

マイク

1 に答える 1