python - の存在に基づいて html ページを分割する方法

または
タグ

翻译自：https://stackoverflow.com/questions/17944062 2013-07-30T10:05:10.617

2121 次

<p> <br>または<div>タグの位置に基づいて、スクレイピングされた Web ページを個別の部分に分割しようとしています。したがって、最初のタグには、問題の<p>タグまでのすべてのデータ/タグが含まれます。lxml プロジェクトの etree のようなものを見てきましたが、接線のように見えます。<html><p>

「通常の」html 解析との違いは、選択されたタグの数です。複数のタグとそのデータを選択して個別に保存したいのですが、「通常の」html 解析ツールでは、分離されたタグを 1 つだけ選択して (xpath などを使用して) 再生することができます。（私はウェブプログラミングにもかなり慣れていません）。

ファイルオフセットを保存してから、入力ファイルをカットしてスライスして目標を達成する方法を考えましたが、せいぜいハックのようです。

述べた目標を達成するにはどうすればよいですか、助けてください。

ありがとう。

python - の存在に基づいて html ページを分割する方法 またはタグ

1 に答える 1

Related

Reference

python - の存在に基づいて html ページを分割する方法

または
タグ