0

いくつかのジャーナル補足データからのオフライン html ファイルがあります。これは、1 つの行/エントリに対して 1 つ、いくつかの列が分割されている形式です。次に例を示します。

OrganismID  GeneID

Org1        Gene1
____________
Org2        Gene1
            Gene2
___
Org3        Gene2
            Gene3
            Gene4  

したがって、OrganismID の列には 3 行ありますが、GeneID 列には OrganismID の 1 行目に対応する 1 行、OrganismID の 2 行目に対応する 2 行、OrganismID の 3 行目に対応する 3 行があります。文書内の表のセルを分割したときのように見えます。これをRに取り込んで、おそらく従来のR data.frameのようなより良い形式にするにはどうすればよいでしょうか?

編集:

テーブルの列がどのように異なる行を持つことができるかをうまく表示する最初のいくつかのエントリの HTML コードを含めました。私は自分の HTML を使用していませんが、列 1 の各行の開始時に次のように定義することで、4 列目、5 列目、および 6 列目の複数の行に「スペースを空ける」ように見えますrowspan

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
"http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<title>Overview per Gene</title>
</head>
<body>
<table border="1">
<tr>
<th>Species</th>
<th>Gene ID</th>
<th>Length Upstream</th>
<th>Motif ID</th>
<th>Position</th>
<th>Strand</th>
<th>Match</th>
</tr>
<tr>
<td rowspan="2">P. infestans</td>
<td rowspan="2">PITG_00002</td>
<td rowspan="2">1000</td>
<td>Motif-0</td>
<td>-574</td>
<td>-</td>
<td>TCAGTCTTACATCTAC</td>
</tr>
<tr>
<td>Motif-1</td>
<td>-430</td>
<td>-</td>
<td>GTTACATGAAG</td>
</tr>
<tr>
<td rowspan="1">P. infestans</td>
<td rowspan="1">PITG_00004</td>
<td rowspan="1">454</td>
<td>Motif-1</td>
<td>-264</td>
<td>+</td>
<td>TACATGTAA</td>
</tr>
<tr>
<td rowspan="2">P. infestans</td>
<td rowspan="2">PITG_00006</td>
<td rowspan="2">1000</td>
<td>Motif-0</td>
<td>-55</td>
<td>+</td>
<td>CATTCCTAATTTCGCC</td>
</tr>
<tr>
<td>Motif-1</td>
<td>-326</td>
<td>+</td>
<td>CATATATGTATGG</td>
</tr>
<tr>
<td rowspan="3">P. infestans</td>
<td rowspan="3">PITG_00009</td>
<td rowspan="3">1000</td>
<td>Motif-0</td>
<td>-413</td>
<td>-</td>
<td>TCACTTCTCTACTTTG</td>
</tr>
<tr>
<td>Motif-1</td>
<td>-31</td>
<td>+</td>
<td>TACATGTAC</td>
</tr>
<tr>
<td>Motif-3</td>
<td>-271</td>
<td>-</td>
<td>TACTTGGAATTTGTAT</td>
</tr>
<tr>
4

1 に答える 1