0

このページから始めて、ウェブページからテキストを解析しようとしています。このページには最終ページへのリンクがあります (コーディングの手間を省くために、手動でテキスト ファイルに移動することもできます)。左側の最後のページには、ページ インデックスがあります。また、各ページにはページ インデックスもあります。ページ インデックスは、各ページの上部にあります。この項目リストから、'Configuring' 、'Configuration Examples' または 'Example' で始まる行を抽出するだけです。

このタスクは、手動で行うと非常に簡単に見えますが、困難で追跡が困難です。この情報は、アイテムを階層順にクロールしてログに記録するツールから抽出できます。おそらく、ハイパーリンクを含む単純な形式か、少なくとも通常のタブ区切りのテキスト ファイルと同じ形式です。

Web ページ上の情報は公開されており、ダウンロード可能です。Web 経由で抽出するのが難しい場合は、それらをダウンロードしてオフラインで試すこともできます。

私はこの要件について調査を試み、LinksGrabber、WebParser、BeautifulSoup、または正規表現を使用したテキストの解析で微調整ができることを確認しました。しかし、このアイデアの実現にはまだ数光年かかります。

これは私が試みていることはPythonで達成可能ですか、それともこれにアプローチする現実的な方法は何でしょうか.

PS: これが Web スクレイピングであることは理解していますが、私は個人的な教育目的でこれを行っているだけであり、商業的価値や関連性を保持していません。

4

1 に答える 1

1

Scrapyを試す必要があります。そこで、ページから必要なデータを含むモデルを設定できます。

from scrapy.item import Item, Field

class Torrent(Item):
    url = Field()
    name = Field()
    description = Field()
    size = Field()

このデータをスクレイピングするスパイダーを作成できます。スクレイピーの概要

于 2012-09-08T11:36:47.247 に答える