0

私は社会科学者であり、コーディングに関してはまったくの初心者です。他の質問/チュートリアルを検索しましたが、特にコメント セクションを対象とするニュース Web サイトをクロールする方法の要点を得ることができません。理想的には、多くのページをクロールし、すべてのコメントを .txt ファイルとして返すように python に指示したいと思います。私はもう試した

from bs4 import BeautifulSoup
import urllib2
url="http://www.xxxxxx.com"

bs4はモジュールではないというエラー メッセージが表示される前に、私ができる限りのことです。これについて何か助けていただければ幸いです。返信する場合は、DUMB IT DOWN でお願いします。

ターミナルで実行wgetして、Web サイトからあらゆる種類のテキストを取得できます。個々の出力 html ファイルを 1 つの大きな .txt ファイルに保存する方法を実際に理解できれば、すばらしいことです。いずれかのご質問にお答えいたします。

4

3 に答える 3

2

Scrapyを試してみてください。これは、高速で高レベルのスクリーン スクレイピングおよび Web クローリング フレームワークであり、Web サイトをクロールし、そのページから構造化データを抽出するために使用されます。データマイニングからモニタリング、自動テストまで幅広い用途に使用できます。

于 2013-03-28T21:15:14.123 に答える
0

作業を進めているうちにこれに遭遇する可能性が高くなりますが、場合によっては、サイトが Disqus などのサード パーティのコメント サービスを使用している場合、この方法ではコメントをプルダウンできないことがあります。ただ頭を上げてください。

私は以前にこのルートをたどり、特定のサイトのレイアウト/デザインなどに合わせてスクリプトを調整する必要がありました.

Python の文字列ハンドラ関数を使用して後処理を行うことを気にしないのであれば、libcurl は非常に便利であることがわかりました。

純粋に Python で実装する必要がない場合は、wget の再帰ミラーリング オプションを使用してコンテンツのプルを処理し、Python コードを記述してダウンロードしたファイルを解析できます。

于 2013-03-28T21:44:11.620 に答える
0

ここにも 2 セントを追加します。

最初に確認することは、美しいスープをインストールしたことと、それが見つかる場所にあることです。ここでうまくいかない可能性のあるあらゆる種類のことがあります。

私の経験はあなたと似ています。私は Web スタートアップで働いており、登録しているユーザーがたくさんいますが、彼らの仕事に関する情報は提供していません (これは実際に私たちにとって重要です)。そこで私の考えは、彼らの電子メール アドレスのドメインからホームページと「私たちについて」ページをスクレイピングし、収集したデータに学習アルゴリズムを適用して彼らの仕事を予測することでした。各ドメインの結果は、テキスト ファイルとして保存されます。

残念ながら (あなたには...申し訳ありませんが)、最終的に得られたコードは少し複雑でした。問題は、スクレイピングを行うと大量のゴミが発生することであり、それをフィルターで取り除く必要があります。また、エンコーディングの問題が発生し、(ここで学習したいと仮定すると) 価値の低い単語を削除する必要があります。全部で約 1000 行のコードです。興味があれば、役に立つかもしれないいくつかの重要な部分をここに投稿します。

于 2013-03-28T22:15:17.510 に答える