0

このリンクから完全な遺伝子オントロジー用語ファイルをアップロードしましたhttp://www.geneontology.org/GO.downloads.ontology.shtml

GO タームがノードであり、isA と PartOf の関係がエッジであるグラフでデータを表現しました。私の調査によると、このグラフには、「GO:0008150」というアクセッションを持つ GO 用語であるルートが 1 つだけあるはずです。

ここで、いくつかのアルゴリズムを実行するために、各 GO Term にレベルを割り当てたいと考えています。ノードのレベルは、ルートから始まり、レベルが割り当てられるノードで終わる最長パス上のノードの数であると仮定しました。

問題は、約 60,000 の用語のうち、約 30,000 のノードしかルートから到達できないことがわかりました。したがって、残りの 30,000 語はレベルを持つことができません。これにより、アルゴリズムを実行できなくなります。

この問題の解決策は何ですか?

これが私が考えた解決策です、これは良い考えだと思いますか?

平準化できない GO タームには親がありません。ただし、それらのほとんどすべて (葉を除く) には息子がいます。したがって、私の考えは、これらのノードごとに最も深いレベルの息子をチェックし、最も深いレベルから 1 を引いた息子レベルをノードに割り当てることです。たとえば、レベル 1 - 3 - 5 の 3 人の息子がいる場合、最も深い息子のレベルから 1 レベルを引いたレベルであるため、父親にレベル 4 を割り当てます。

4

2 に答える 2

1

もっと直接的に、私は質問でGOヘルプデスクに連絡します-彼らはかなり敏感です:

ebi.ac.ukのgo-helpdesk

ダウンロードしたファイルには3つのオントロジーがあり、そのうちGO:0008150は1つのルートにすぎません。さらに、is_aとpart_ofは、3つのオントロジーすべてを使用したとしても、グラフを完全に接続するには不十分です。他にも多くの関係があり、特に複数のパスを検討する場合、推移性は複雑になる可能性があります。

http://www.geneontology.org/GO.ontology.relations.shtml

最後に、グラフから実際に抽出しようとしている情報を、GOの「レベル」(概念の乱れ)が実際にはあまり情報を含まないものとして検討することをお勧めします。

于 2012-12-26T00:00:37.030 に答える
0

GO には、生物学的プロセス、細胞成分、分子機能の 3 つの主要部分が含まれています。データセットから他の 2 つのコンポーネントを削除してもよろしいですか? また、 http://www.biostars.orgに問い合わせることもできます。

于 2012-12-25T22:17:55.893 に答える