2

記事の抽出で私の仕事を始めるつもりです。

私が行うタスクは、さまざまな Web ページに投稿されているホテルのレビューを抽出することです (例: 1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html、2 http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html ) _

私はJavaでタスクを実行する必要があり、過去数か月だけJavaで作業しています..

そして、ここにこれらに関する私の質問があります。

  1. 一般的な方法で、さまざまな Web ページからレビューだけを抽出する可能性はありますか。

  2. Java でのタスクをサポートする API があれば教えてください。

  3. また、上記のタスクを達成するのに役立つあなたの考え/情報源を教えてください.

アップデート

関連する例がネットで入手できる場合は、非常に役立つ可能性があるため、同じものを投稿してください。

4

1 に答える 1

4

おそらく、 TagSoupNekoHTMLなどの Java 用のスクリーン スクレイピング ユーティリティが必要です。JSoupも人気です。

ただし、tripadvisor などのサード パーティの Web サイトからデータを抽出する場合は、より大きな法的考慮事項もあります。彼らのポリシーはそれを許可していますか?

于 2010-11-11T09:04:06.560 に答える