1

このように、異なるフォルダーに同じ名前の複数のタブファイルがあります

F:/RNASEQ2019/ballgown/abundance_est/RBRN02.sorted.bam\t_data.ctab
F:/RNASEQ2019/ballgown/abundance_est/RBRN151.sorted.bam\t_data.ctab

各ファイルには 5 ~ 6 個の共通の列があり、Gene と FPKM の 2 つの列を選択したいと考えています。FPKM 値が異なるだけで、遺伝子列はすべて同じです。Gene と FPKM カラムを各ファイルからピックアップして、このようなマスターファイルを作りたい

Gene RBRN02 RBRN03 RBRN151
gene1   67  699     88
gene2   66  77      89

これは私がしました

import os

path ="F:/RNASEQ2019/ballgown/abundance_est/"

files =[]

## r=root, d=directory , f=file

for r, d, f in os.walk(path):
    for file in f:
        if 't_data.ctab' in file:
            files.append(os.path.join(r, file))

df=[]

for f in files:
    df.append(pd.read_csv(f, sep="\t"))

しかし、これはサイドワイズマージを行っていません。上記の形式を取得するにはどうすればよいですか?助けてください

4

3 に答える 3

0

各ファイルを個別のデータ フレームで読み取り、それらをマージするのはどうですか?

于 2019-12-30T11:18:10.047 に答える