ドラッグバンクのダウンロードから xml ファイルを変換しようとしています。Excel 2007 にインポートしようとすると、インポートに失敗すると表示されます。サイズのせいかな。このファイルを開いてタブ区切りで保存できる他の方法があるかどうか、誰かが提案できますか? その最初のファイル (ターゲット、トランスポーター、キャリア、および酵素情報を含むすべての薬物) はこちら、http: //www.drugbank.ca/xml 形式のダウンロード
1 に答える
これは、私の元の回答を完全に書き直したものです。
私の最初の回答では、drugbank.xml の限定的な分析を行いました。私は少しヘッジしましたが、構造が複雑すぎて標準のタブ区切りファイルに変換できないと述べました。これは、標準的なプログラムで処理できるタブ区切りのファイルを意味していました。私はその声明を支持しますが、有用な非標準の区切りファイルを作成することは可能です.
以下の表は、drugbank.xml の構造を示しています。
列は、インデックス、レベル、名前、親、繰り返しです。要素のドラッグとパートナーの場合、Repeats は実際のリピート数です。他の要素の場合、これはその親のオカレンス内での最大繰り返し数です。
Inx Lvl Name------------------------------------ Pnt Repeats
1 1 drugs 0 1
2 2 drug 1 6711
3 3 drugbank-id 2 1
4 3 name 2 1
5 3 description 2 1
6 3 cas-number 2 1
7 3 general-references 2 1
8 3 synthesis-reference 2 1
9 3 indication 2 1
10 3 pharmacology 2 1
11 3 mechanism-of-action 2 1
12 3 toxicity 2 1
13 3 biotransformation 2 1
14 3 absorption 2 1
15 3 half-life 2 1
16 3 protein-binding 2 1
17 3 route-of-elimination 2 1
18 3 volume-of-distribution 2 1
19 3 clearance 2 1
20 3 secondary-accession-numbers 2 1
21 4 secondary-accession-number 20 5
22 3 groups 2 1
23 4 group 22 3
24 3 taxonomy 2 1
25 4 kingdom 24 1
26 4 substructures 24 1
27 5 substructure 26 35
28 3 synonyms 2 1
29 4 synonym 28 82
30 3 salts 2 1
31 4 salt 30 17
32 3 brands 2 1
33 4 brand 32 230
34 3 mixtures 2 1
35 4 mixture 34 340
36 5 name 35 1
37 5 ingredients 35 1
38 3 packagers 2 1
39 4 packager 38 173
40 5 name 39 1
41 5 url 39 1
42 3 manufacturers 2 1
43 4 manufacturer 42 91
44 3 prices 2 1
45 4 price 44 172
46 5 description 45 1
47 5 cost 45 1
48 5 unit 45 1
49 3 categories 2 1
50 4 category 49 11
51 3 affected-organisms 2 1
52 4 affected-organism 51 3
53 3 dosages 2 1
54 4 dosage 53 22
55 5 form 54 1
56 5 route 54 1
57 5 strength 54 1
58 3 atc-codes 2 1
59 4 atc-code 58 36
60 3 ahfs-codes 2 1
61 4 ahfs-code 60 11
62 3 patents 2 1
63 4 patent 62 5
64 5 number 63 1
65 5 country 63 1
66 5 approved 63 1
67 5 expires 63 1
68 3 food-interactions 2 1
69 4 food-interaction 68 6
70 3 drug-interactions 2 1
71 4 drug-interaction 70 246
72 5 drug 71 1
73 5 name 71 1
74 5 description 71 1
75 3 protein-sequences 2 1
76 4 protein-sequence 75 10
77 5 header 76 1
78 5 chain 76 1
79 3 calculated-properties 2 1
80 4 property 79 18
81 5 kind 80 1
82 5 value 80 1
83 5 source 80 1
84 3 experimental-properties 2 1
85 4 property 84 4
86 5 kind 85 1
87 5 value 85 1
88 5 source 85 1
89 3 external-identifiers 2 1
90 4 external-identifier 89 13
91 5 resource 90 1
92 5 identifier 90 1
93 3 external-links 2 1
94 4 external-link 93 4
95 5 resource 94 1
96 5 url 94 1
97 3 targets 2 1
98 4 target 97 144
99 5 actions 98 1
100 6 action 99 2
101 5 references 98 1
102 5 known-action 98 1
103 3 enzymes 2 1
104 4 enzyme 103 19
105 5 actions 104 1
106 6 action 105 3
107 5 references 104 1
108 3 transporters 2 1
109 4 transporter 108 24
110 5 actions 109 1
111 6 action 110 3
112 5 references 109 1
113 3 carriers 2 1
114 4 carrier 113 6
115 5 actions 114 1
116 6 action 115 1
117 5 references 114 1
118 2 partners 1 1
119 3 partner 118 4227
120 4 name 119 1
121 4 general-function 119 1
122 4 specific-function 119 1
123 4 gene-name 119 1
124 4 locus 119 1
125 4 reaction 119 1
126 4 signals 119 1
127 4 cellular-location 119 1
128 4 transmembrane-regions 119 1
129 4 theoretical-pi 119 1
130 4 molecular-weight 119 1
131 4 chromosome 119 1
132 4 species 119 1
133 5 category 132 1
134 5 name 132 1
135 5 uniprot-name 132 1
136 5 uniprot-taxon-id 132 1
137 4 essentiality 119 1
138 4 references 119 1
139 4 external-identifiers 119 1
140 5 external-identifier 139 9
141 6 resource 140 1
142 6 identifier 140 1
143 4 synonyms 119 1
144 5 synonym 143 38
145 4 protein-sequence 119 1
146 5 header 145 1
147 5 chain 145 1
148 4 gene-sequence 119 1
149 5 header 148 1
150 5 chain 148 1
151 4 pfams 119 1
152 5 pfam 151 15
153 6 identifier 152 1
154 6 name 152 1
155 4 go-classifiers 119 1
156 5 go-classifier 155 49
157 6 category 156 1
158 6 description 156 1
送信された膨大な XML ドキュメントを処理できないクライアントのために開発したユーティリティがあります。選択した情報を区切りファイルに抽出しました。これらの XML 文書は膨大なものでしたが、構造は単純で、レベル 2 要素内で繰り返しはありませんでした。非標準の区切りファイルではありますが、繰り返しを受け入れてデータを区切りファイルに出力するようにユーティリティを拡張できないかと考えました。区切られたファイルがどれほど役立つかはわかりませんが、できることはわかりました。
私の出力には、リーフ要素ごとに 1 つずつ、97 列があります。レベルごとに 1 行ずつ、合計 6 行の見出し行があります。リーフ要素とその親要素をリストします。要素が繰り返される場合、値は次に使用可能な行に配置されます。最初の 3 つの薬のファイルの行のいくつかの列で、これが明確になることを願っています。この表示では、列 61 が切り捨てられていることに注意してください。
|Column 1 |Column 2 |Column 18 |Column 25 |Column 56 |Column 60 |Column 61 |Column 62 |
|drugs |drugs |drugs |drugs |drugs |drugs |drugs |drugs |
|drug |drug |drug |drug |drug |drug |drug |drug |
|drugbank-id|name |secondary-accession-numbers|mixtures |external-identifiers |targets |targets |targets |
| | |secondary-accession-number |mixture |external-identifier |target |target |target |
| | | |name |resource |actions |references |known-action|
| | | | | |action | | |
|DB00001 |Lepirudin |BIOD00024 | |Drugs Product Database (DPD)|inhibitor |# Turpie AG: Anticoagulants in|yes |
| | |BTD00024 | |National Drug Code Directory| | | |
| | | | |PharmGKB | | | |
| | | | |UniProtKB | | | |
|DB00002 |Cetuximab |BIOD00071 | |National Drug Code Directory|antagonist|# Hosokawa N, Yamamoto S, Ueha|yes |
| | |BTD00071 | |GenBank | |# Snyder LC, Astsaturov I, Wei|unknown |
| | | | |PharmGKB | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Negri DR, Tosi E, Valota O, |unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
| | | | | | |# Overington JP, Al-Lazikani B|unknown |
|DB00003 |Dornase Alfa|BIOD00001 |Cauterex |Drugs Product Database (DPD)| |# Cramer GW, Bosso JA: The rol|yes |
| | |BTD00001 |Clorfibrase|GenBank | | | |
| | | |Elase |PharmGKB | | | |
| | | |Fibrabene |UniProtKB | | | |
| | | |Fibrase SA | | | | |
| | | |Fibrolan | | | | |
| | | |Parkelase | | | | |
| | | |Ridasa | | | | |
| | | | | | | | |
結果のファイルには 135,713 行があり、長さは 52,171,387 バイトです。これ、またはいくつかの単純なバリエーションは役に立ちますか?