1

<p> <br>または<div>タグの位置に基づいて、スクレイピングされた Web ページを個別の部分に分割しようとしてい ます。したがって、最初のタグには、問題の<p>タグまでのすべてのデータ/タグが含まれます。lxml プロジェクトの etree のようなものを見てきましたが、接線のように見えます。<html><p>

「通常の」html 解析との違いは、選択されたタグの数です。複数のタグとそのデータを選択して個別に保存したいのですが、「通常の」html 解析ツールでは、分離されたタグを 1 つだけ選択して (xpath などを使用して) 再生することができます。(私はウェブプログラミングにもかなり慣れていません)。

ファイルオフセットを保存してから、入力ファイルをカットしてスライスして目標を達成する方法を考えましたが、せいぜいハックのようです。

述べた目標を達成するにはどうすればよいですか、助けてください。

ありがとう。

4

1 に答える 1