2

簡単な python スクリプトで解析したい次の GraphML ファイル 'mygraph.gml' があります。

これは、2 つのノード「node0」、「node1」、およびそれらの間のエッジを持つ単純なグラフを表します。

<?xml version="1.0" encoding="UTF-8"?>
<graphml xmlns="http://graphml.graphdrawing.org/xmlns"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns
         http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">
  <key id="name" for="node" attr.name="name" attr.type="string"/>
  <key id="weight" for="edge" attr.name="weight" attr.type="double"/>
  <graph id="G" edgedefault="directed">
    <node id="n0">
      <data key="name">node1</data>
    </node>
    <node id="n1">
      <data key="name">node2</data>
    </node>
<edge source="n1" target="n0">
  <data key="weight">1</data>
</edge>
  </graph>
</graphml>

これは、重み 1 のエッジを持つ 2 つのノード n0 と n1 を持つグラフを表します。この構造をpythonで解析したい。

lxml の助けを借りてスクリプトを作成しました (データセットがこの単純な例よりもはるかに大きく、10^5 ノードを超え、python minidom が遅すぎるため、これを使用する必要があります)

import lxml.etree as et

tree = et.parse('mygraph.gml')

root = tree.getroot()

graphml = {
"graph": "{http://graphml.graphdrawing.org/xmlns}graph",
"node": "{http://graphml.graphdrawing.org/xmlns}node",
"edge": "{http://graphml.graphdrawing.org/xmlns}edge",
"data": "{http://graphml.graphdrawing.org/xmlns}data",
"label": "{http://graphml.graphdrawing.org/xmlns}data[@key='label']",
"x": "{http://graphml.graphdrawing.org/xmlns}data[@key='x']",
"y": "{http://graphml.graphdrawing.org/xmlns}data[@key='y']",
"size": "{http://graphml.graphdrawing.org/xmlns}data[@key='size']",
"r": "{http://graphml.graphdrawing.org/xmlns}data[@key='r']",
"g": "{http://graphml.graphdrawing.org/xmlns}data[@key='g']",
"b": "{http://graphml.graphdrawing.org/xmlns}data[@key='b']",
"weight": "{http://graphml.graphdrawing.org/xmlns}data[@key='weight']",
"edgeid": "{http://graphml.graphdrawing.org/xmlns}data[@key='edgeid']"
}

graph = tree.find(graphml.get("graph"))
nodes = graph.findall(graphml.get("node"))
edges = graph.findall(graphml.get("edge"))

このスクリプトはノードとエッジを正しく取得するので、それらを簡単に反復処理できます

for n in nodes:
    print n.attrib

または同様にエッジで:

for e in edges:
    print (e.attrib['source'], e.attrib['target'])

しかし、エッジの重みとノードのタグ「名前」を出力するために、エッジまたはノードの「データ」タグを取得する方法がよくわかりません。

これは私にはうまくいきません:

weights = graph.findall(graphml.get("weight"))

最後のリストは常に空です。なんで?私は周りに何かが欠けていますが、何が理解できません。

4

1 に答える 1

3

1回のパスでそれを行うことはできませんが、見つかったノードごとに、データのキー/値を使用してdictを作成できます。

graph = tree.find(graphml.get("graph"))
nodes = graph.findall(graphml.get("node"))
edges = graph.findall(graphml.get("edge"))

for node in nodes + edges:
    attribs = {}
    for data in node.findall(graphml.get('data')):
        attribs[data.get('key')] = data.text
    print 'Node', node, 'have', attribs

結果は次のようになります。

Node <Element {http://graphml.graphdrawing.org/xmlns}node at 0x7ff053d3e5a0> have {'name': 'node1'}
Node <Element {http://graphml.graphdrawing.org/xmlns}node at 0x7ff053d3e5f0> have {'name': 'node2'}
Node <Element {http://graphml.graphdrawing.org/xmlns}edge at 0x7ff053d3e640> have {'weight': '1'}
于 2012-04-18T09:49:01.590 に答える