PCA (主成分分析) の準備を整えるために、2 列のファイルを 0 と 1 のテーブルに変換したいと考えています。入力ファイルは、最初の列の細菌名と 2 番目の列の細菌記述子で構成されます。
考えられる方法: 入力ファイルをハッシュに保存し、各列で何らかの「uniq」コマンドを実行して、それらを出力ファイルに追加します。最後に、出力ファイルの組み合わせごとに、細菌名と記述子がファイル 1 ハッシュにある場合は 0 または 1 を追加します。
入力ファイル (タブ区切り):
bacteria_1 protein:plasmid:149679
bacteria_1 protein:proph:183386
bacteria_2 protein:proph:183386
bacteria_3 protein:plasmid:147856
bacteria_3 protein:proph:183386
目的の出力 (タブ区切り):
protein:plasmid:149679 protein:proph:183386 protein:plasmid:147856
bacteria_1 1 1 0
bacteria_2 0 1 0
bacteria_3 0 1 1