0

タブで区切られた値を持つファイルがあります。値が存在しない場合は、対応するフィールドに「-」を入力します。

各行は識別子で始まります。特定の識別子に対応する行を単純に検索し、2 つの異なるマシン (B と C) からマシン A (Linux) でgrepを使用すると、2 つの異なる結果が表示されます。特に、マシンの 1 つから、いくつかの連続する「-」が欠落しています。2 つのマシンは、1 つは Linux ubuntu (B) を使用し、もう 1 つは MAC OSX (C) を使用しています。次に例を示します。

入力ファイル:

comp10034_c0_seq1   281 -   UniRef90_B7GCX2 276 3e-29   640 98.220640569395 13.90625    Predicted_protein   Phaeodactylum_tricornutum   -   -   GO:0006200  ATP_catabolic_process   GO:0005524  ATP
 binding    GO:0016020  membrane    pfam00005   138-230 1.00e-09    -   -   -   93  -   0   0.136126    0   
comp10036_c0_seq1   315 -   -   -   -   -   -   -   -   -   -   -   -   -   -   --  -   -   -   -   -   -   -   -   77  +   2   0.00277103  0   
comp10037_c0_seq1   350 -   -   -   -   -   -   -   -   -   -   -   -   -   -   --  -   -   -   -   -   -   -   -   77  +   2   0.738719    0   
comp6261_c0_seq1    1227    -   UniRef90_K0R0D8 519 1e-82   186 42.2982885085575    98.9247311827957    Uncharacterized_protein Thalassiosira_ oceanica -   -   -   -   -   -   -   -   -   -   -   -   -   --  350 +   1   0.0034993   0

マシン B からの GREP

grep 'comp6261_c0_seq1' file.txt

結果:

comp6261_c0_seq1    1227    -   UniRef90_K0R0D8 519 1e-82   186 42.2982885085575    98.9247311827957    Uncharacterized_protein Thalassiosira_oceanica  -   -   -   -   -   -   -   -   -   -   -   -   -   --  350 +   1   0.0034993   0

マシン C からの GREP

grep 'comp6261_c0_seq1' file.txt

結果:

comp6261_c0_seq1    1227    -   UniRef90_K0R0D8 519 1e-82   186 42.2982885085575    98.9247311827957    Uncharacterized_protein Thalassiosira_oceanica  -   350 +   1   0.0034993   0

PS ここではフォーラムのタブが表示されないため、単語をスペースで区切って書くことにしました。

4

2 に答える 2

0

入力ファイルがマシンごとに異なっているか、入力ファイルに含まれる制御文字がマシンごとに異なって解釈されます。diff入力ファイルに対してandを実行しcat -vて、どちらが正しいかを確認します。

于 2013-10-07T19:40:54.817 に答える