-4

こんにちは、私の質問を手伝ってくれてありがとう。

craigslist または kiji の投稿、つまりhttp://toronto.en.craigslist.ca/tor/atq/3346994296.htmlで提供されたときに、次の情報を抽出するスクリプトを作成することは可能ですか?

  1. メールアドレス (craigslist が提供するデフォルトのもの)
  2. ポストのアイテム
  3. ポスターのアドレス

上記の 1 ~ 3 は、手動で取得できる情報ですが、投稿 ID または広告 ID を入力するだけで、この情報を抽出できるようにしたいです。

4

1 に答える 1

2

この質問に対する簡単な答えは...
はい、例として提供されているものと同様の Web ページからリストされた情報を自動的に抽出することは、比較的単純なスクリプトで行うことができます。

一般に、この [Web ページから情報を自動的に抽出する] 活動は、Web スクレイピング(データ スクレイピングの特定の形式)として知られています。
使用できる既製の製品 (プログラミングがまったく、またはほとんど含まれていません。ページ内の目的のページと目的のフィールドのパラメーター化は、構成によって指定されます) と、使用できるソフトウェア ライブラリの両方があります。 Python や Java などのスクリプト言語に関連して、HTML ページの解析を容易にし、より一般的には、このアクティビティに関連するさまざまなタスクのサポートを提供します。

技術的な考慮事項は別として、この種のスクレイピングを実行する際のエチケットと合法性を主張する必要があります。一部のデータやサイトは著作権で明示的に保護されている場合があります。トラフィックの少ない時間帯に大きなスクレイピング ジョブを実行し、ホスト サイトに過度の負担をかけないようにリクエストを調整することをお勧めします。また、多くのサイトでは、API またはデータ ダンプを提供して、同じ情報をよりシンプルかつ制御された方法で提供する場合があります。

于 2012-11-11T20:19:27.407 に答える