テキスト マイニング用の R パッケージを作成しています。パッケージに関数を追加して、KEGG からパスウェイのリストを取得したいと考えています。wikipathways から経路を取得できますが、KEGG から取得できません。NBCI2R などのパッケージを使用せずに KEGG からパスを取得する方法を教えてください。独自の関数を作成したいので、助けてください。
ありがとうございました
テキスト マイニング用の R パッケージを作成しています。パッケージに関数を追加して、KEGG からパスウェイのリストを取得したいと考えています。wikipathways から経路を取得できますが、KEGG から取得できません。NBCI2R などのパッケージを使用せずに KEGG からパスを取得する方法を教えてください。独自の関数を作成したいので、助けてください。
ありがとうございました
この回答に進む前に、http://www.kegg.jp/kegg/legal.htmlを読むことを強くお勧めします。KEGG は教育目的でのみ無料で使用でき、サービス用の API/ライブラリを提供するには適切なライセンスが必要です。したがって、そのようなライセンスが必要なftp://ftp.genome.jp/への非匿名アクセスが必要になる可能性が最も高いでしょう。
ただし、実際の質問に関しては、http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htextの下にすべての経路のフラット ファイルがあります。ダウンロードして解析するだけです:
lines <- readLines(
"http://www.kegg.jp/kegg-bin/download_htext?htext=br08901.keg&format=htext" )
pathways <- do.call(
rbind,
str_split( grep( "^[ABCD]\\s+\\d{5}\\s+.*?$", lines, value=TRUE ), "\\s{2,}" )
)
pathways <- as.data.frame( pathways )[-1]
colnames( pathways ) <- c( "ID", "Name" )
head(pathways)
ID Name
1 01100 Metabolic pathways
2 01110 Biosynthesis of secondary metabolites
3 01120 Microbial metabolism in diverse environments
4 00010 Glycolysis / Gluconeogenesis
5 00020 Citrate cycle (TCA cycle)
6 00030 Pentose phosphate pathway
これは、商業目的以外でのみ行うこともできることに注意してください。ただし、著作権は、ブラウザ以外のソフトウェアが非商用目的で Web サイトにアクセスできるかどうかを規定していません。そのため、彼らに連絡せずにこれを広範に試してはいけません。