1

データシェーダーを使用して、大きな 2D データ配列を振幅で色付けされた一連の点としてプロットするためのヘルプ/アドバイスを探しています。私が扱っているデータは、複数の 2D HDF5 データセットに格納されており、別のデータセットに時間インデックスが格納されています。データの 2 番目の次元は空間次元 (m 単位の距離) であり、これは不均一な一連のフロートです。通常、データセットは非常に大きい (~1000 x >1000000) ため、データの y 位置が列ヘッダー x -location はフレーム インデックスであり、ポイントをデータ値にカラーマップしたい私が抱えている問題は、dask データフレームからデータシェーダーでこれをプロットしたいときに発生します。現在、私が見つけた唯一の方法は平坦化することですデータフレームを作成し、対応する 2 つの「x」を作成します インデックスと y 位置を格納する 'y' 列。データを平坦化するステップなしでこのプロットが可能かどうかを理解するのを手伝ってくれる人はいますか?

これは私がこれまでに行ったことの例です:

import datashader as ds
import datashader.transfer_functions as tf
import numpy as np
import pandas as pd
import dask.dataframe as dd
import dask.array as da

import bokeh.plotting as bk
from bokeh.palettes import viridis

from datashader.bokeh_ext import InteractiveImage

bk.output_notebook()

# ------------------------
# This is a proxy for a function, which creates a delayed frame from
# a series of delayed pandas dataframes, each reading from a separate 
# h5 dataset.
random_data = da.random.random((10000, 1000), chunks = (1000, 100))
frame = dd.from_array(random_data)
# ------------------------

# ------------------------
# Flatten the dataframe and create two additional arrays holding the x and y
# locations.
a = frame.compute() # I want to avoid this call on the whole dataframe
index = [a.index] * len(a.columns)
index = np.vstack(index).reshape((-1), order = 'F')
columns = [a.columns] * len(a.index)
columns = [item for sublist in columns for item in sublist]
data = a.values.flatten()

# ------------------------
# Now creating an in-memory frame for the data
plot_frame = pd.DataFrame(columns = ['x', 'y', 'z']) # Empty frame
plot_frame.x = index
plot_frame.y = columns[::-1] #Reverse column order to plot
plot_frame.z = data
# ------------------------

x_range = [a.index[0], a.index[-1]]
y_range = [a.columns[0], a.columns[-1]]

def create_image(x_range = x_range, y_range = y_range[::-1], w=500, h=500):
    cvs = ds.Canvas(x_range=x_range, y_range=y_range, plot_height=h, plot_width=w)
    agg = cvs.points(plot_frame, 'x', 'y', ds.mean('z'))
    return tf.shade(agg, cmap = viridis(256))

def base_plot(tools='pan,wheel_zoom,reset, box_zoom, save'):
    p = bk.figure(x_range = x_range, y_range = y_range, tools=tools, 
                  plot_width=900, plot_height=500, outline_line_color=None,
        min_border=0, min_border_left=0, min_border_right=0,
        min_border_top=0, min_border_bottom=0, x_axis_type = 'datetime')   
    p.xgrid.grid_line_color = None
    p.ygrid.grid_line_color = None
    return p

p = base_plot()
InteractiveImage(p, create_image)

データシェーダー パイプラインを介してこれをより効果的に処理する方法を推奨できる人はいますか?

前もって感謝します!

4

1 に答える 1