nlp - トリップアドバイザーからデータをクロールするためのアドバイス

Question

現在、NLP プロジェクトに取り組んでおり、tripadvisor.com から抽出することを目的としたコーパスが必要です。出力は、コメントとそのコメントの評価の 2 つのタイプとして期待されます。私の質問は：

この目的に最適なクロールツールはありますか? 使いやすい必要があり、python が推奨されます。美しいスープは私が見つけたものですが、他の推奨事項についてここで尋ねたかった.
この目的のためだけの完全なツールはありますか? tripadvisor.com 用に作成されたプログラムのことですか?
巨大な Web サイトからのデータ (コメント/評価) クロールに関するその他の推奨事項は、高く評価されます。

コーパスは大学の研究でセンチメント分析に使用されるため、できるだけ早くクロールする必要があります。

score 0 · Accepted Answer

Pythonの場合、scrapyを使用できます。これは、熟練したクローラーフレームワークです。http：//scrapy.org/

また、収集したデータを共有してください。トリップアドバイザーのデータの準備ができている場合は、クロールする必要はありません。または、少なくとも、クローラースクリプトを共有できます。

score 0 · Accepted Answer

質問への回答をそれぞれの順序で:

必要なのは Web スクレイピングツールです。クローラーはページをナビゲートするプロセスを自動化し、スクレイパーは HTML を構造化データに変換します。さまざまなプラットフォームで利用できる多くのツールがあります。美しいスープについてはわかりません。スクレーパーを設計していますか、それとも購入しますか?
既製のコーパスを入手するか、カスタマイズされたニーズに応じて Web スクレイパーを作成できます。ScraperWikiを使用して、データをリクエストしたり、手動でスクレイパーを作成したりできます。データの構造はわかりませんが、一部のデータは Google スプレッドシートを使用してスクレイピングできます。ここでそれを見ることができます。スクレイピングされたデータの種類を確認し、それが自分のデータに類似している場合は、それを使用できます。
一部のサイトまたはその特定のディレクトリはクロールできません。robots.txt同じことを知るために彼らをチェックすることができます。データをクロールする前に、サイトのポリシーもお読みください。

あなたは尋ねていませんが、センチメント分析用の無料ツールをいくつか紹介します。

2 に答える 2