3

現在、NLP プロジェクトに取り組んでおり、tripadvisor.com から抽出することを目的としたコーパスが必要です。出力は、コメントとそのコメントの評価の 2 つのタイプとして期待されます。私の質問は:

  • この目的に最適なクロール ツールはありますか? 使いやすい必要があり、python が推奨されます。美しいスープは私が見つけたものですが、他の推奨事項についてここで尋ねたかった.

  • この目的のためだけの完全なツールはありますか? tripadvisor.com 用に作成されたプログラムのことですか?

  • 巨大な Web サイトからのデータ (コメント/評価) クロールに関するその他の推奨事項は、高く評価されます。

コーパスは大学の研究でセンチメント分析に使用されるため、できるだけ早くクロールする必要があります。

4

2 に答える 2

0

Pythonの場合、scrapyを使用できます。これは、熟練したクローラーフレームワークです。http://scrapy.org/

また、収集したデータを共有してください。トリップアドバイザーのデータの準備ができている場合は、クロールする必要はありません。または、少なくとも、クローラースクリプトを共有できます。

于 2013-01-19T21:17:04.997 に答える
0

質問への回答をそれぞれの順序で:

  • 必要なのは Web スクレイピング ツールです。クローラーはページをナビゲートするプロセスを自動化し、スクレイパーは HTML を構造化データに変換します。さまざまなプラットフォームで利用できる多くのツールがあります。美しいスープについてはわかりません。スクレーパーを設計していますか、それとも購入しますか?

  • 既製のコーパスを入手するか、カスタマイズされたニーズに応じて Web スクレイパーを作成できます。ScraperWikiを使用して、データをリクエストしたり、手動でスクレイパーを作成したりできます。データの構造はわかりませんが、一部のデータは Google スプレッドシートを使用してスクレイピングできます。ここでそれを見ることができます。スクレイピングされたデータの種類を確認し、それが自分のデータに類似している場合は、それを使用できます。

  • 一部のサイトまたはその特定のディレクトリはクロールできません。robots.txt同じことを知るために彼らをチェックすることができます。データをクロールする前に、サイトのポリシーもお読みください。

あなたは尋ねていませんがセンチメント分析用の無料ツールをいくつか紹介します。

于 2013-01-22T12:54:50.433 に答える