私はデータ マイニングの研究を行っており、多くの場合、SQLite データベース、CSV ファイル、pickle ファイルなどから大規模なデータセットをロードする Python スクリプトを使用しています。開発プロセスでは、スクリプトを頻繁に変更する必要があり、データを待つのに 20 秒から 30 秒かかることに気付きます。ロードします。
データ ストリームの読み込み (SQLite データベースなどから) がうまくいく場合もありますが、すべての状況でうまくいくわけではありません。
これまでの私の最善の解決策は、最終的なスクリプトに満足するまでデータをサブサンプリングすることです。より良いソリューション/設計プラクティスを持っている人はいますか?
私の「理想的な」解決策は、Python デバッガー (pdb) を巧みに使用して、データがメモリに読み込まれたままになり、スクリプトを編集して、特定のポイントから再開できるようにすることです。