私は新しい仕事のプログラミング演習として Python でクロス集計ライブラリを実装しています。要件の実装は機能しますが、洗練されておらず冗長です。それには、フラット ファイルに表形式のデータとして格納された基本モデルと、これについて求められる可能性のあるすべての統計分析結果との間で、データをきれいに移動できるような、より優れたモデルが必要です。
現在、テーブル内の各行のタプルのセットから、対象のタプルの出現頻度をカウントするヒストグラム、そして出力をセットにコンパイルするシリアライザーへと進んでいます。表示するテーブル セルの数。ただし、十分な情報が配置されていないため、テーブルやヒストグラムに必要以上に頻繁に戻る必要があります。
それで、何かアイデアはありますか?
編集:これはいくつかのデータの例であり、そこから構築できるようにしたいものです。ご了承ください "。" 条件付きでのみカウントされる「欠落」データのビットを示します。
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
上記の列 0 と 2 の間の相関関係を見ていたら、次の表が表示されます。
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
さらに、頻度/合計、頻度/小計などの比率を計算できるようにしたいと思います。