システム ログ ファイルを pandas データフレームに読み込み、それらからグラフを生成するスクリプトがあります。グラフは小さなデータ セットに適しています。しかし、データ収集の時間枠が長くなり、より大きなデータ セットに直面すると、グラフが混み合って識別できなくなります。
データフレームをリサンプリングして、データセットが特定のサイズを超えた場合にリサンプリングして、最終的に SIZE_LIMIT 行数だけになるようにする予定です。これは、データフレームをフィルタリングして、n = actual_size/SIZE_LIMIT 行ごとに新しいデータフレームの単一行に集約する必要があることを意味します。集計は、平均値またはそのまま取得された n 番目の行のいずれかです。
私はパンダに完全に精通しているわけではないので、いくつかの明らかな手段を見逃している可能性があります。