Scrapy と Python にはまだ少し慣れていないので、何らかのガイダンスを期待しています。現在、デフォルトの lxml を使用してこれを解決しようとしていますが、BeautifulSoup も良いと聞きました。これが簡単になる場合は、他のセレクターを試してみてください。
かなり悪い構造を持つ html オブジェクトをスクレイピングしようとしています。オブジェクトの詳細は、その名前と同じ構造内にネストされていません (div などはありません)。ノードを抽出して、隣接するノードから詳細を抽出する方法がわかりません (ネストされた要素からではなく)
現在、次のように定義されています。
<!--first item-->
<h2 class="name">
<a href="link">Name goes here</a>
</h2>
<table>
<tbody>
<tr>
<th>ID</th>
<td><a href="link">123456</a></td>
</tr>
<tr>
<th>Description</th>
<td>More details here</td>
</tr>
<tr>
<th>Date</th>
<td>1/1/13</td>
</tr>
</tbody>
</table>
<!-- end first item -->
<hr>
<!--second item-->
<h2 class="name">
<a href="link">Name goes here</a>
</h2>
<table>
<tbody>
<tr>
<th>ID</th>
<td><a href="link">123456</a></td>
....
ID、説明、および日付が、名前と同じ div 内にネストされていないことに注意してください。また、2 番目の項目は 1 番目の項目の名前と詳細に隣接しています。
これに関する任意のヘルプをいただければ幸いです。