同様の質問が投稿されている可能性があることは承知していますが、検索したところ、質問の詳細が異なるようです (または、少なくとも私の場合に採用できる解決策を見つけることができませんでした)。
現在、 「messyFile」と「wantedID 」の 2 つのファイルがあります。「messyFile」のサイズは80,000,000 X 2,500ですが、「wantedID」のサイズは1 x 462です。"messyFile"の 253 行目には、2500 個の ID があります。ただし、必要なのは、ファイル"wantedID"内の 462 個の ID だけです。462 ID が 2500 ID のサブセットであると仮定すると、ファイル「messyFile」を処理して、462 ID に関する情報 (つまり、サイズ80,000,000 X 462 ) のみが含まれるようにするにはどうすればよいでしょうか。
大変お待たせいたしました!
ps: 混乱させてすみません。しかし、ええ、質問はこのようなものに要約できます。"File#1"の 1 行目には、10 個の ID があります。"File#2"の 1 行目には 3 つの ID があります ( "File#2"は 1 行のみで構成されています)。3 つの ID は、10 の ID のサブセットです。ここで、 「File#2」に記載されている 3 つの ID に関する情報のみが含まれるように、「File#1」を処理したいと考えています。
ps2: 「messyFile」は vcf ファイルですが、「wantedID」はテキスト ファイルにすることができます (小さいので「できる」と言ったので、ほぼすべてのタイプを作成できます)。
ps3: "File#1" は次のようになります。
sample#1 sample#2 sample#3 sample#4 sample#5
0 1 0 0 1
1 1 2 0 2
「File#2」は次のようになります。
sample#2 sample#4 sample#5
目的の出力は次のようになります。
sample#2 sample#4 sample#5
1 0 1
1 0 2