r - Rパッケージxmlでxml/sbmlを解析するには?

Question

以下のsbml/xmlファイルから情報を解析しようとしています

https://dl.dropboxusercontent.com/u/10712588/file.xml

このコードから

http://search.bioconductor.jp/codes/11172

でファイルを正常にインポートできるようです

doc <- xmlTreeParse(filename,ignoreBlanks = TRUE)

しかし、私はノード属性を回復できません

atrr <- xpathApply(doc, "//species[@id]", xmlGetAttr, "id")

また

xpathApply(doc, "//species", function(n) xmlValue(n[[2]]))

ファイルのノードが続きます...

<species id="M_10fthf_m" initialConcentration="1" constant="false" hasOnly
SubstanceUnits="false" name="10-formyltetrahydrofolate(2-)" metaid="_metaM_10fth
f_m" boundaryCondition="false" sboTerm="SBO:0000247" compartment="m">
        <notes>
          <body xmlns="http://www.w3.org/1999/xhtml">
            <p>FORMULA: C20H21N7O7</p>
            <p>CHARGE: -2</p>
            <p>INCHI: InChI=1S/C20H23N7O7/c21-20-25-16-15(18(32)26-20)23-11(7-22
-16)8-27(9-28)12-3-1-10(2-4-12)17(31)24-13(19(33)34)5-6-14(29)30/h1-4,9,11,13,23
H,5-8H2,(H,24,31)(H,29,30)(H,33,34)(H4,21,22,25,26,32)/p-2/t11-,13+/m1/s1</p>
            <p>HEPATONET_1.0_ABBREVIATION: HC00212</p>
            <p>EHMN_ABBREVIATION: C00234</p>
          </body>
        </notes>
        <annotation>
...

種ノード内のすべての情報を取得したいのですが、その方法を知っている人はいますか?

score 2 · Accepted Answer

種ノードのすべての情報を「取得」したいと言ったときの意味に依存すると思います。取得されたデータは、さまざまな形式に強制される可能性があるためです。以下では、すべてをデータフレームに収めたいと想定しています。ここで、各行は XML ファイルの種ノードであり、列はさまざまな情報を表します。

単に情報を抽出しようとするときは、通常、XML よりもリストを使用する方が簡単です。

doc <- xmlTreeParse(xml_file, ignoreBlanks = TRUE)
doc_list <- xmlToList(doc)

リストに入ると、種のデータがどこに保存されているかがわかります。

sapply(x, function(x)unique(names(x)))
[[1]]
NULL

[[2]]
NULL

[[3]]
NULL

[[4]]
[1] "species"

[[5]]
[1] "reaction"

[[6]]
[1] "metaid"

$.attrs
[1] "level"   "version"

したがって、本当に必要なのはの情報だけですdoc_list[[4]]。の最初のコンポーネントだけを見てくださいdoc_list[[4]]:

str(doc_list[[4]][[1]])
List of 9
 $       : chr "FORMULA: C20H21N7O7"
 $       : chr "CHARGE: -2"
 $       : chr "HEPATONET_1.0_ABBREVIATION: HC00212"
 $       : chr "EHMN_ABBREVIATION: C00234"
 $       : chr "http://identifiers.org/obo.chebi/CHEBI:57454"
 $       : chr "http://identifiers.org/pubchem.compound/C00234"
 $       : chr "http://identifiers.org/hmdb/HMDB00972"
 $       : Named chr "#_metaM_10fthf_c"
  ..- attr(*, "names")= chr "about"
 $ .attrs: Named chr [1:9] "M_10fthf_c" "1" "false" "false" ...
  ..- attr(*, "names")= chr [1:9] "id" "initialConcentration" "constant" "hasOnlySubstanceUnits" ...

したがって、最初の 8 つのリストに含まれる情報と、属性に含まれる情報が得られます。

すでに名前が付けられているため、属性情報を取得するのは簡単です。以下は、属性情報を各ノードのデータフレームにフォーマットします。

doc_attrs <- lapply(doc_list[[4]], function(x) {
  x <- unlist(x[names(x) == ".attrs"])
  col_names <- gsub(".attrs.", "", names(x))
  x <- data.frame(matrix(x, nrow = 1), stringsAsFactors = FALSE)
  colnames(x) <- col_names
  x
})

一部のノードには属性情報がないように見えたため、空のデータフレームが返されました。それが後で問題を引き起こしたので、代わりに NA のデータフレームを作成しました。

doc_attrs_cols <- unique(unlist(sapply(doc_attrs, colnames)))
doc_attrs[sapply(doc_attrs, length) == 0] <- 
  lapply(doc_attrs[sapply(doc_attrs, length) == 0], function(x) {
    df <- data.frame(matrix(rep(NA, length(doc_attrs_cols)), nrow = 1))
    colnames(df) <- doc_attrs_cols
    df
  })

非属性データを取得する場合、変数の名前と値は通常、同じ文字列に含まれていました。私はもともと名前を抽出するための正規表現を考え出そうとしましたが、形式がすべて異なっているため、あきらめて、この特定のデータセットのすべての可能性を特定しました。

flags <- c("FORMULA:", "CHARGE:", "HEPATONET_1.0_ABBREVIATION:", 
  "EHMN_ABBREVIATION:", "obo.chebi/CHEBI:", "pubchem.compound/", "hmdb/HMDB",  
  "INCHI: ", "kegg.compound/", "kegg.genes/", "uniprot/", "drugbank/")

また、上に示したノードのように、非属性情報が値のリストとして保持されることもあれば、「メモ」および「注釈」サブリストに含まれる場合もあるため、作成するif elseステートメントを含める必要がありました。より一貫性のあるもの。

doc_info <- lapply(doc_list[[4]], function(x) {
  if(any(names(x) != ".attrs" & names(x) != "")) {
    names(x)[names(x) != ".attrs"] <- ""
    x <- unlist(do.call("c", as.list(x[names(x) != ".attrs"])))
  } else {
  x <- unlist(x[names(x) != ".attrs"])
  }
  x <- gsub("http://identifiers.org/", "", x)
  need_names <- names(x) == ""
  names(x)[need_names] <- gsub(paste0("(", paste0(flags, collapse = "|"), ").+"), "\\1", x[need_names], perl = TRUE)
  #names(x) <- gsub("\\s+", "", names(x))
  x[need_names] <- gsub(paste0("(", paste0(flags, collapse = "|"), ")(.+)"), "\\2", x[need_names], perl = TRUE)
  col_names <- names(x)
  x <- data.frame(matrix(x, nrow = 1), stringsAsFactors = FALSE)
  colnames(x) <- col_names
  x
})

すべてをデータフレームにまとめるには、plyrパッケージのrbind.fill.

require(plyr)

doc_info <- do.call("rbind.fill", doc_info)
doc_attrs <- do.call("rbind.fill", doc_attrs)

doc_all <- cbind(doc_info, doc_attrs)


dim(doc_all)
[1] 3972   22

colnames(doc_all)
 [1] "FORMULA:"                    "CHARGE:"                     "HEPATONET_1.0_ABBREVIATION:" "EHMN_ABBREVIATION:"         
 [5] "obo.chebi/CHEBI:"            "pubchem.compound/"           "hmdb/HMDB"                   "about"                      
 [9] "INCHI: "                     "kegg.compound/"              "kegg.genes/"                 "uniprot/"                   
[13] "drugbank/"                   "id"                          "initialConcentration"        "constant"                   
[17] "hasOnlySubstanceUnits"       "name"                        "metaid"                      "boundaryCondition"          
[21] "sboTerm"                     "compartment"

r - Rパッケージxmlでxml/sbmlを解析するには?

3 に答える 3

Related

Reference