-1

RSSフィードのWebスクレイピングまたは解析にPERL、Ruby、Python、およびPHPを使用することについて読んだことがあります。

これらの言語のいずれかを使用してページをスクレイピングした場合、スクレイピングされた情報を index.html のような HTML ファイルに書き込むことは可能ですか? RSS フィードからリンクを取得し、それを使ってホームページのメニューを作成したいと考えています。

スクレイピングするたびに、HTML ファイル全体を書き直さなければならないのでしょうか? スクレイピングされたページから情報を取得するために、約 1 時間ごとに変更する必要がある「見出し」というセクションが 1 つあります。

スクレイプが実行されるたびに変更する必要があるコードは次のとおりです。

<article class="grid_4">
        <div class="box-1">
          <h3>HEADLINES</h3>
          <ul class="list-1 p2">
            <li><a href="more.html"><b></b><strong>Lorem ipsum</strong> dolor amet, consectetuer</a></li>
            <li><a href="more.html"><b></b><strong>Adipiscing elit</strong> sed diam nonummy nibh</a></li>
            <li><a href="more.html"><b></b><strong>Euismod tincidunt</strong> laoreet dolore magna</a></li>
            <li><a href="more.html"><b></b><strong>Aliquam erat</strong> volutpat wisi enim ad minim</a></li>
            <li><a href="more.html"><b></b><strong>Veniam nostrud</strong> exerci tation ullamcorper</a></li>
            <li><a href="more.html"><b></b><strong>Suscipit lobortis</strong> nisl ut aliquip commodo</a></li>
            <li><a href="more.html"><b></b><strong>Duis autem</strong> vel eum iriure dolor hendrerit</a></li>
            <li><a href="more.html"><b></b><strong>In vulputate</strong> velit esse molestie consequat</a></li>
            <li><a href="more.html"><b></b><strong>Vel illum</strong> dolore eu feugiat nulla facilisis</a></li>
            <li><a href="more.html"><b></b><strong>At vero</strong> eros et accumsan</a></li>
          </ul>
          <div class="alignright p3"><a href="more.html" class="link-1">read more</a></div>
        </div>
        <a href="more.html" class="banner-1"></a> </article>
    </div>

これを行うことは可能ですか?そうでない場合は、それについて読んだり学んだりできる場所を教えてもらえますか?

4

2 に答える 2

2

美しいスープをインストールする

pip install beautifulsoup4

次にドキュメントを読む

( pip がない場合は、ここからインストールしてください: http://www.pip-installer.org/en/latest/installing.html )

Beautiful Soup は、きれいなバージョンの Web ページを提供します。この構造を検索して、リンクや探している情報を探すことができます。

soup.find_all('a')

ページ内のすべてのリンクを提供します。

これらを Web ページに載せるには無限の可能性があります。

  • Webページを生成できます

  • Web ページを生成して iframe に読み込むことができます

  • すべてのリンクを含む JSON 形式のテキスト ファイルを生成し、静的な Web ページに埋め込まれた Javascript からそれを取得できます。

  • あなたが言うように、Djangoを実行できます

どれが最適かは多くの要因に依存します - どのくらいの頻度でスクレイピングできますか? どのくらいの頻度でスクレイピングする必要がありますか? スクレイピングは Web サーバーで行う必要がありますか、それとも Web サーバーに定期的にアップロードする他のコンピューターで行う必要がありますか?

あいまいな質問、あいまいな答え...

于 2013-01-15T15:42:20.423 に答える
1

はい、可能です:

于 2013-01-15T15:41:40.307 に答える