問題の Web ページはhttp://assignments.uspto.gov/assignments/q?db=pat&pub=20060030630です。
ここで、最初の割り当てで担当者をキャプチャしたいとしましょう。関連するコードは次のようになります
<div class="t3">Assignee:</div>
</td>
</tr>
</table>
</td><td>
<table width="100%" cellpadding="0" cellspacing="0" border="0">
<tbody valign="top">
<tr>
<td>
<table>
<tr>
<td>
<div class="p1">
<a href="/assignments/q?db=pat&asned=LEAR%20CORPORATION">LEAR CORPORATION</a>
</div>
</td>
</tr>
<tr>
<td><span class="p1">21557 TELEGRAPH ROAD</span></td>
</tr>
<tr>
<td><span class="p1">SOUTHFIELD, MICHIGAN 48034</span></td>
</tr>
</table>
</td>
</tr>
</tbody>
</table>
</td>
</tr>
xpath を使用して、クラス p1 のスパンからすべてを取得すると仮定できますが、ページ全体で基本的にすべてのものが使用されていることを除いて、lear Corporation が含まれている div クラスと同じです。
それで、「担当者」を読んで、それに関連する情報だけを取得する方法はありますか?
その方法を理解できれば、そこから推測して、必要なページ上の特定のデータを取得する方法、つまり、特定の割り当てで搬送データを取得する方法を見つけることができます。
しかし、ページ上のすべてのデータ (リール/フレーム、搬送、譲渡人、譲受人、すべての譲渡の特派員、および特許自体に関するヘッダー情報) を取得するだけであれば、個々の情報を取得しますか?