0

クロールしたいウェブサイトがあります。各ページで抽出したい複数のアイテムが含まれています。

これは、オンラインのイエロー ページに非常によく似ています。各アイテムのタイトル、電話番号、カテゴリが含まれています...これだけではページ全体を表示するには明らかに不十分なため、アイテムはリストになっています。3 つのアイテムを含むページもあれば、10 程度のアイテムを含むページもあります。

--編集 1-- 多くの Web サイトのスクレイピングに成功しましたが、1 つのアイテムしか含まれていないページに到達できました。これはここでは不可能であり、異なるテンプレートが必要なため、複数のアイテムを 1 つのアイテムとして返すか、ランダムなビットを少しずつ返します。

4

1 に答える 1

0

Portia は、ページごとに複数のアイテムを抽出することをまだサポートしていません。それには問題があり、すぐに実行されることに十分な関心があります。

それまでの間、親アイテム内にアイテムを入れ子にし (「バリアント」を使用)、後で後処理ステップでそれらを個別のアイテムに分割するという 1 つのトリックがあります。

于 2014-09-24T15:54:03.413 に答える