繰り返される HTML ブロックを自動検出し、ブロック内のテキスト コンテンツをスクレイピングする Web スクレイピング ツールまたはライブラリはありますか?
これは、最新のコンテンツ Web サイトが PHP や Python などのサーバー側言語によって動的に生成されるという仮定に基づいています。コンテンツはほとんどの場合、テンプレートの for ループによってレンダリングされるため、繰り返される HTML ブロックは常に見つかります。例:
<div id="content">
<div class="blog entry">
<div class="title">
<h1>1st post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
<div class="blog entry">
<div class="title">
<h1>2nd post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
<div class="blog entry">
<div class="title">
<h1>3rd post</h2>
</div>
<div class="content">
<p>...</p>
</div>
</div>
</div>
bautiful soap や Scrapy などのライブラリは、スクレイピングを実行する前に人間がルールを入力することに依存しています。それらは私が望むものではありません。