問題タブ [anemone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
578 参照

ruby - Nokogiri を使用して、ページが依存するすべてのドメインを取得する

Nokogiri を使用して、特定のページが依存しているすべてのドメイン/IP アドレスを取得しようとしています。Javascript が依存関係を動的にロードするため、完全にはできませんが、取得に最善の努力を払って満足しています。

  • 画像 URL <img src="..."
  • Javascript URL <script src="..."
  • CSS および任意の CSS url(...) 要素
  • フレームと IFrame

CSSのインポートもフォローしたいと思います。

任意の提案/ヘルプをいただければ幸いです。プロジェクトはすでに Anemone を使用しています。

これが私が現時点で持っているものです。

コードは素晴らしいでしょうが、私は本当にポインターの後にいます.css_parserのようなcssパーサーを使用してCSSを解析し、画像へのインポートとURLを見つける必要があることを発見しました.

0 投票する
1 に答える
1050 参照

ruby - アネモネは特定のフレーズを含むURLリンクを無視します

私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。

すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。

これどうやってするの?

0 投票する
1 に答える
1365 参照

ruby - 訪問した各URLにタグを追加するRubyAnemoneスパイダー

クロールを設定しました:

ただし、スパイダーがアクセスするすべてのURLでGoogleアナリティクスのトラッキング防止タグを使用し、必ずしも実際にリンクをクリックする必要はありません。

スパイダーを一度使用してすべてのURLを保存し、WATIRを使用してタグを追加して実行することもできますが、速度が遅く、skip_links_like関数とページ深度関数が好きなのでこれは避けたいと思います。

どうすればこれを実装できますか?

0 投票する
1 に答える
806 参照

ruby - 拡張子がpdfのWebページをスキップし、アネモネでのクロールからzipを実行します

私はアネモネジェム(Ruby-1.8.7およびRails 3.1.1)を使用してクローラーを開発しています。拡張子がpdf、doc、zipなどのWebページをクロール/ダウンロードからスキップするにはどうすればよいですか。

0 投票する
2 に答える
1187 参照

ruby - Ruby+Anemone Web Crawler: 一連の数字で終わる URL に一致する正規表現

次のように終了したページをスキップして、Web サイトをクロールしようとしていたとします。

http://HIDDENWEBSITE.com/anonimize/index.php?page=press_and_news&subpage=20060117

現在、Ruby で Anemone gem を使用してクローラーを構築しています。skip_links_like メソッドを使用していますが、パターンが一致しないようです。=2105925これを可能な限り汎用的にしようとしているので、サブページに依存するのではなく、(数字)だけに依存します。

試してみ/=\d+$/まし/\?.*\d+$/たが、うまくいかないようです。

これは、アネモネでのクロールから拡張子 pdf、zip を使用して Web ページをスキップすることに似ていますが、拡張子の代わりに数字を使用することはできません。

また、パターンを使用してhttp://regexpal.com/でテストすると、=\d+$正常に一致しますhttp://misc.com/test/index.php?page=news&subpage=20060118

編集:

これが私のコード全体です。何が悪いのか正確にわかる人がいるのだろうか。

私の出力は次のようなものです:

0 投票する
2 に答える
737 参照

ruby - Anemone を使用したサブドメインのクロール

アネモネを使用しています。サブドメインもクロールするにはどうすればよいですか? たとえば、ウェブサイトがある場合www.abc.com、クローラーもクロールする必要がありsupport.abc.comますblah.abc.com。Ruby 1.8.7 と Rails 3 を使用しています。

0 投票する
1 に答える
734 参照

mongodb - Rails と MongoDB を使用したアネモネ

初めての Web クローラーを作成する準備をしていますが、Anemoneが最も理にかなっているようです。MongoDB ストレージの組み込みサポートがあり、Rails アプリケーションで Mongoid 経由で MongoDB を既に使用しています。私の目標は、クロールされた結果を保存し、後で Rails 経由でアクセスすることです。いくつかの懸念があります。

1)このページの最後に、注:すべてのストレージ エンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。」と記載されています。デフォルトのメモリ ストレージを使用していた場合、これはクロールの最後に発生すると予想されますが、次にタスクを実行するときに重複するページがクロールされないように、レコードを無期限に MongoDB に保存するべきではありませんか? それらが「新しいクロールを開始する前に」消去された場合、次のクロールの前に Rails ロジックを実行する必要がありますか? もしそうなら、前回のクロールからの重複レコードをチェックしなければならなくなります。

2) Rails モデルのコンテキスト外で MongoDB を使用することについて真剣に考えたのはこれが初めてです。レコードはPageクラスを使用して作成されているように見えますが、後で通常 Mongoid を使用するようにクエリを実行できますか? ファンシーメソッドを提供するORMがあれば、それは単に「モデル」と見なされると思いますか?

0 投票する
1 に答える
626 参照

ruby - ルビー/アネモネ/ノコギリでサイトから製品をこすり取る方法

ルビーのアネモネとノコギリライブラリを使用してeコマースサイトから製品をスクレイプすることは可能ですか?

nokogiriを使用して各製品ページから必要なデータを取得する方法は理解していますが、anemone/nokogiriでサイトをクロールしてすべての製品ページを取得する方法がわかりません。

正しい方向へのプッシュは大歓迎です

0 投票する
3 に答える
3468 参照

ruby - ルビースクレーパー。CSVにエクスポートする方法は?

このルビースクリプトは、メーカーのWebサイトから製品情報を取得するために作成しました。配列内の製品オブジェクトのスクレイピングとストレージは機能しますが、配列データをcsvファイルにエクスポートする方法がわかりません。このエラーがスローされています:scraper.rb:45:main:Objectの未定義のメソッド `send_data'(NoMethodError)

私はこのコードを理解していません。これは何をしているのですか、なぜ正しく機能しないのですか?

完全なコード: