タブで区切られた値を持つファイルがあります。値が存在しない場合は、対応するフィールドに「-」を入力します。
各行は識別子で始まります。特定の識別子に対応する行を単純に検索し、2 つの異なるマシン (B と C) からマシン A (Linux) でgrepを使用すると、2 つの異なる結果が表示されます。特に、マシンの 1 つから、いくつかの連続する「-」が欠落しています。2 つのマシンは、1 つは Linux ubuntu (B) を使用し、もう 1 つは MAC OSX (C) を使用しています。次に例を示します。
入力ファイル:
comp10034_c0_seq1 281 - UniRef90_B7GCX2 276 3e-29 640 98.220640569395 13.90625 Predicted_protein Phaeodactylum_tricornutum - - GO:0006200 ATP_catabolic_process GO:0005524 ATP
binding GO:0016020 membrane pfam00005 138-230 1.00e-09 - - - 93 - 0 0.136126 0
comp10036_c0_seq1 315 - - - - - - - - - - - - - - -- - - - - - - - - 77 + 2 0.00277103 0
comp10037_c0_seq1 350 - - - - - - - - - - - - - - -- - - - - - - - - 77 + 2 0.738719 0
comp6261_c0_seq1 1227 - UniRef90_K0R0D8 519 1e-82 186 42.2982885085575 98.9247311827957 Uncharacterized_protein Thalassiosira_ oceanica - - - - - - - - - - - - - -- 350 + 1 0.0034993 0
マシン B からの GREP
grep 'comp6261_c0_seq1' file.txt
結果:
comp6261_c0_seq1 1227 - UniRef90_K0R0D8 519 1e-82 186 42.2982885085575 98.9247311827957 Uncharacterized_protein Thalassiosira_oceanica - - - - - - - - - - - - - -- 350 + 1 0.0034993 0
マシン C からの GREP
grep 'comp6261_c0_seq1' file.txt
結果:
comp6261_c0_seq1 1227 - UniRef90_K0R0D8 519 1e-82 186 42.2982885085575 98.9247311827957 Uncharacterized_protein Thalassiosira_oceanica - 350 + 1 0.0034993 0
PS ここではフォーラムのタブが表示されないため、単語をスペースで区切って書くことにしました。