1

Scrapy と Python にはまだ少し慣れていないので、何らかのガイダンスを期待しています。現在、デフォルトの lxml を使用してこれを解決しようとしていますが、BeautifulSoup も良いと聞きました。これが簡単になる場合は、他のセレクターを試してみてください。

かなり悪い構造を持つ html オブジェクトをスクレイピングしようとしています。オブジェクトの詳細は、その名前と同じ構造内にネストされていません (div などはありません)。ノードを抽出して、隣接するノードから詳細を抽出する方法がわかりません (ネストされた要素からではなく)

現在、次のように定義されています。

<!--first item-->
<h2 class="name">
    <a href="link">Name goes here</a>
</h2>
<table>
<tbody>
    <tr>
        <th>ID</th>
        <td><a href="link">123456</a></td>
    </tr>
    <tr>
        <th>Description</th>
        <td>More details here</td>
    </tr>
    <tr>
        <th>Date</th>
        <td>1/1/13</td>
    </tr>
</tbody>
</table>
<!-- end first item -->

<hr>

<!--second item-->
<h2 class="name">
   <a href="link">Name goes here</a>
</h2>
<table>
<tbody>
    <tr>
        <th>ID</th>
        <td><a href="link">123456</a></td>
....

ID、説明、および日付が、名前と同じ div 内にネストされていないことに注意してください。また、2 番目の項目は 1 番目の項目の名前と詳細に隣接しています。

これに関する任意のヘルプをいただければ幸いです。

4

1 に答える 1