“anemone”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

578 参照

ruby - Nokogiri を使用して、ページが依存するすべてのドメインを取得する

Nokogiri を使用して、特定のページが依存しているすべてのドメイン/IP アドレスを取得しようとしています。Javascript が依存関係を動的にロードするため、完全にはできませんが、取得に最善の努力を払って満足しています。

画像 URL <img src="..."
Javascript URL <script src="..."
CSS および任意の CSS url(...) 要素
フレームと IFrame

CSSのインポートもフォローしたいと思います。

任意の提案/ヘルプをいただければ幸いです。プロジェクトはすでに Anemone を使用しています。

これが私が現時点で持っているものです。

コードは素晴らしいでしょうが、私は本当にポインターの後にいます.css_parserのようなcssパーサーを使用してCSSを解析し、画像へのインポートとURLを見つける必要があることを発見しました.

2011-07-29T13:43:15.173

0 投票する

1 に答える

1050 参照

ruby - アネモネは特定のフレーズを含むURLリンクを無視します

私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。

すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。

これどうやってするの？

ruby web-scraping anemone

2011-09-06T09:52:46.883

0 投票する

1 に答える

1365 参照

ruby - 訪問した各URLにタグを追加するRubyAnemoneスパイダー

クロールを設定しました：

ただし、スパイダーがアクセスするすべてのURLでGoogleアナリティクスのトラッキング防止タグを使用し、必ずしも実際にリンクをクリックする必要はありません。

スパイダーを一度使用してすべてのURLを保存し、WATIRを使用してタグを追加して実行することもできますが、速度が遅く、skip_links_like関数とページ深度関数が好きなのでこれは避けたいと思います。

どうすればこれを実装できますか？

ruby web-crawler anemone

2011-09-08T10:56:05.293

0 投票する

1 に答える

806 参照

ruby - 拡張子がpdfのWebページをスキップし、アネモネでのクロールからzipを実行します

私はアネモネジェム（Ruby-1.8.7およびRails 3.1.1）を使用してクローラーを開発しています。拡張子がpdf、doc、zipなどのWebページをクロール/ダウンロードからスキップするにはどうすればよいですか。

ruby ruby-on-rails-3 ruby-on-rails-3.1 web-crawler anemone

2011-12-01T12:14:03.203

0 投票する

2 に答える

1187 参照

ruby - Ruby+Anemone Web Crawler: 一連の数字で終わる URL に一致する正規表現

次のように終了したページをスキップして、Web サイトをクロールしようとしていたとします。

http://HIDDENWEBSITE.com/anonimize/index.php?page=press_and_news&subpage=20060117

現在、Ruby で Anemone gem を使用してクローラーを構築しています。skip_links_like メソッドを使用していますが、パターンが一致しないようです。=2105925これを可能な限り汎用的にしようとしているので、サブページに依存するのではなく、(数字)だけに依存します。

試してみ/=\d+$/まし/\?.*\d+$/たが、うまくいかないようです。

これは、アネモネでのクロールから拡張子 pdf、zip を使用して Web ページをスキップすることに似ていますが、拡張子の代わりに数字を使用することはできません。

また、パターンを使用してhttp://regexpal.com/でテストすると、=\d+$正常に一致しますhttp://misc.com/test/index.php?page=news&subpage=20060118

編集：

これが私のコード全体です。何が悪いのか正確にわかる人がいるのだろうか。

私の出力は次のようなものです：

ruby regex ruby-on-rails-3 web-crawler anemone

2011-12-01T23:03:29.850

0 投票する

2 に答える

737 参照

ruby - Anemone を使用したサブドメインのクロール

アネモネを使用しています。サブドメインもクロールするにはどうすればよいですか? たとえば、ウェブサイトがある場合www.abc.com、クローラーもクロールする必要がありsupport.abc.comますblah.abc.com。Ruby 1.8.7 と Rails 3 を使用しています。

ruby web-crawler anemone

2012-02-15T07:16:40.840

0 投票する

1 に答える

734 参照

mongodb - Rails と MongoDB を使用したアネモネ

初めての Web クローラーを作成する準備をしていますが、Anemoneが最も理にかなっているようです。MongoDB ストレージの組み込みサポートがあり、Rails アプリケーションで Mongoid 経由で MongoDB を既に使用しています。私の目標は、クロールされた結果を保存し、後で Rails 経由でアクセスすることです。いくつかの懸念があります。

1)このページの最後に、「注:すべてのストレージエンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。」と記載されています。デフォルトのメモリストレージを使用していた場合、これはクロールの最後に発生すると予想されますが、次にタスクを実行するときに重複するページがクロールされないように、レコードを無期限に MongoDB に保存するべきではありませんか? それらが「新しいクロールを開始する前に」消去された場合、次のクロールの前に Rails ロジックを実行する必要がありますか? もしそうなら、前回のクロールからの重複レコードをチェックしなければならなくなります。

2) Rails モデルのコンテキスト外で MongoDB を使用することについて真剣に考えたのはこれが初めてです。レコードはPageクラスを使用して作成されているように見えますが、後で通常 Mongoid を使用するようにクエリを実行できますか? ファンシーメソッドを提供するORMがあれば、それは単に「モデル」と見なされると思いますか？

mongodb ruby-on-rails-3.1 mongoid web-crawler anemone

2012-02-24T06:10:20.033

0 投票する

1 に答える

626 参照

ruby - ルビー/アネモネ/ノコギリでサイトから製品をこすり取る方法

ルビーのアネモネとノコギリライブラリを使用してeコマースサイトから製品をスクレイプすることは可能ですか？

nokogiriを使用して各製品ページから必要なデータを取得する方法は理解していますが、anemone/nokogiriでサイトをクロールしてすべての製品ページを取得する方法がわかりません。

正しい方向へのプッシュは大歓迎です

ruby nokogiri scraper anemone

2012-05-20T07:02:09.773

0 投票する

3 に答える

3468 参照

ruby - ルビースクレーパー。CSVにエクスポートする方法は？

このルビースクリプトは、メーカーのWebサイトから製品情報を取得するために作成しました。配列内の製品オブジェクトのスクレイピングとストレージは機能しますが、配列データをcsvファイルにエクスポートする方法がわかりません。このエラーがスローされています：scraper.rb：45：main：Objectの未定義のメソッド `send_data'（NoMethodError）

私はこのコードを理解していません。これは何をしているのですか、なぜ正しく機能しないのですか？

完全なコード：

ruby fastercsv scraper anemone

2012-05-21T02:59:19.670

問題タブ [anemone]

Reference