2

私はWebページからコンテンツを抽出するための小さなシステムの開発に取り組んでいます(それが行われたことは知っていますが、それは良い練習であり、私が必要とするものです)。基本的に、私はコンテンツ-コンテンツを抽出しようとしています。つまり、それが記事である場合は、記事のテキストだけが必要です。

私は始めたばかりなので、私をばかげた白紙の状態と考えてください。私はあなたがそれをどのように行うのか、そして特にPythonで何をするのかに興味がありますが、

編集:

私はこれがかなり啓発的であり、私がやろうとしていることにもっと調和していることを発見したので、「この種のこと」に沿った解決策、議論、およびライブラリの提案を高く評価しました。

4

1 に答える 1

1

私はこれを少し行ったので、MechanizeBeautifulSoupの組み合わせをお勧めします。

HTMLツリーを美しいスープで解析し、コンテンツを識別する特徴的なタグを探すことをお勧めします。

<div id="article">

次に、「スープ」からそのノードを取得できます。

于 2012-08-31T13:11:24.810 に答える