2

私は、この/これらの長い質問にほとんどひどい概要を与える必要があるように感じます..

これらの質問すべてが以前の質問と回答の投稿で具体的に回答されている場合は申し訳ありませんが、次の質問のすべてに具体的に対処するものを見つけることができませんでした.

この質問には、Web からのデータ抽出 (Web スクレイピング、データ マイニングなど) が含まれます。私は、これらの分野と、それを特定の業界にどのように適用できるかについての研究にほぼ 1 年を費やしてきました。また、php と mysql/myphpmyadmin にも慣れてきました。

一言で言えば、サイトから情報を (おそらく数ギグに相当する) できるだけ速く効率的に抽出する方法を探しています。私は、scrapy や webharvey などの Web スクレイピング プログラムを試しました。HTTrack などのプログラムも試しました。すべてに長所と短所があります。webharvey はかなりうまく機能しますが、ギャラリー ウィジェットに保存されている画像をスクレイピングする際には制限があります。また、私が抽出しているサイトの多くは、他の方法を使用してデータのマイニングを面倒にしていることもわかりました。webharvey を使用してデータを抽出するには、数か月かかります。csv形式でエクスポートされた何百万行ものデータをExcelに抽出することを考えると、文句は言えません。しかし、繰り返しになりますが、画像ファイルを抽出しようとすると、画像と特定の ajax ウィジェットがプログラムを停止させます。

だから私の質問は次のとおりです:

  1. 上記のデータを抽出するより迅速な方法はありますか?
  2. webharvey の画像の制限を回避する方法はありますか (つまり、ギャラリー ウィジェット内で 1 つの画像しか抽出できない / 面白いがらくたを埋め込んでコーディングでかわいくしようとするサイトのサブページ リンクをたどることができない)。
  3. 検索結果の数を制限するサイト検索フォームのパラメーターをバイパスする方法はありますか (つまり、検索フォームの制限ごとに郡に限定されるのではなく、州全体のすべてのビジネス リスティングを取得します)**

また、これは公開情報であるため、著作権で保護することはできません。誰でもそれを取ることができます :) (適切な例: Feist Publications v. Rural Telephone Service)。情報を抽出することは情報を抽出することです。事実/公開情報について話している限り、抽出することは合法です。

そうは言っても、この「公開」情報を抽出する最も効率的な方法 (ここでは灰色の領域) (脆弱性が存在すると仮定) は、SQL インジェクションを使用することではないでしょうか? :)

副次的な質問として、Tor は IP アドレスを隠すのにどれほど効果的ですか? 笑

ヘルプ、フィードバック、提案、または批判は大歓迎です。私は決して上記の分野の専門家ではありません。私は、プログラミングと自動化への関心が高まっており、クレイジーなアイデアをたくさん持っている、やる気のある個人です。ありがとうございました。

4

1 に答える 1

0

PhantomJS (JavaScript)などのヘッドレス ブラウザ ライブラリ、またはSelenium WebDriver (Java) などのテスト フレームワークを使用して、独自の Linux コマンドライン スクレイピング プログラムを作成することをお勧めします。

スクレイプ プログラムが完成したら、それをクラウド サーバー (Amazon EC2、Linode、Google Compute Engine、Microsoft Azure など) にインストールし、サーバー イメージを必要な数だけ複製することでスケールアップできます。

于 2013-10-14T02:22:35.217 に答える