python - 解析されたWebページからのPythonテキストの抽出

Question

私はWebページからコンテンツを抽出するための小さなシステムの開発に取り組んでいます（それが行われたことは知っていますが、それは良い練習であり、私が必要とするものです）。基本的に、私はコンテンツ-コンテンツを抽出しようとしています。つまり、それが記事である場合は、記事のテキストだけが必要です。

私は始めたばかりなので、私をばかげた白紙の状態と考えてください。私はあなたがそれをどのように行うのか、そして特にPythonで何をするのかに興味がありますが、

編集：

私はこれがかなり啓発的であり、私がやろうとしていることにもっと調和していることを発見したので、「この種のこと」に沿った解決策、議論、およびライブラリの提案を高く評価しました。

score 1 · Accepted Answer

私はこれを少し行ったので、MechanizeとBeautifulSoupの組み合わせをお勧めします。

HTMLツリーを美しいスープで解析し、コンテンツを識別する特徴的なタグを探すことをお勧めします。

<div id="article">

次に、「スープ」からそのノードを取得できます。

1 に答える 1