1

私が持っているのは、次のパターンの情報を含む PDB ファイルを含むフォルダーです。

*HEADER 'protein date ID'
TITLE  'title of document here
AUTHOR ' the authors listed here' 
AUTHOR ' continued..'
SOURCE 'source organism (s)'
SOURCE 'continued'
SOURCE 'continued'
COMPND 'compound or complex studied'
COMPND 'continued'

ご覧のとおり、このファイルにあるソースとその他の情報は複数の行に展開されます。GREP コマンドを使用して、これらの PDB ファイルにこの情報を含む単一のテーブルを作成したいと考えています。複数の行を 1 つにグループ化し、TITLE、AUTHOR、SOURCE などの列を含むテーブルを作成することができませんでした。

これを行う理由は、PDB ファイルからの情報をテーブルに表示し、著者または情報源ごとに新しい研究をフィルタリングできるためです。これにより、実際の Web サイトで多くの時間を節約できます。

ありがとうございました

4

1 に答える 1

0

は適切なツールではないと思います。またはgrepをお勧めします。これが解決策です(または、目的の出力によっては完全な解決策ではないかもしれません):sedawksed

sed ':r;$!{N;br};:s;s/\nSOURCE//2;ts' file.pdb

ただし、行のみを処理しSOURCEます。

より一般的なバージョンは次のとおりです。

sed ':r;$!{N;br};:s;s/\(\n[A-Z]\+\)\(.*\)\1/\1\2/;ts' file.pdb
于 2012-09-11T19:55:26.823 に答える