問題タブ [anemone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Nokogiri を使用して、ページが依存するすべてのドメインを取得する
Nokogiri を使用して、特定のページが依存しているすべてのドメイン/IP アドレスを取得しようとしています。Javascript が依存関係を動的にロードするため、完全にはできませんが、取得に最善の努力を払って満足しています。
- 画像 URL <img src="..."
- Javascript URL <script src="..."
- CSS および任意の CSS url(...) 要素
- フレームと IFrame
CSSのインポートもフォローしたいと思います。
任意の提案/ヘルプをいただければ幸いです。プロジェクトはすでに Anemone を使用しています。
これが私が現時点で持っているものです。
コードは素晴らしいでしょうが、私は本当にポインターの後にいます.css_parserのようなcssパーサーを使用してCSSを解析し、画像へのインポートとURLを見つける必要があることを発見しました.
ruby - アネモネは特定のフレーズを含むURLリンクを無視します
私はrubyでアネモネを使用してWebスクレイパーを実行していますが、ログオンが必要なページにサーバーがアクセスすると、サーバーに問題が発生します。
すべてのページのURLに「アカウント」などのフレーズが含まれているため、プログラムでこの文字列を含むリンク先のリンクに移動せず、完全に無視してください。
これどうやってするの?
ruby - 訪問した各URLにタグを追加するRubyAnemoneスパイダー
クロールを設定しました:
ただし、スパイダーがアクセスするすべてのURLでGoogleアナリティクスのトラッキング防止タグを使用し、必ずしも実際にリンクをクリックする必要はありません。
スパイダーを一度使用してすべてのURLを保存し、WATIRを使用してタグを追加して実行することもできますが、速度が遅く、skip_links_like関数とページ深度関数が好きなのでこれは避けたいと思います。
どうすればこれを実装できますか?
ruby - 拡張子がpdfのWebページをスキップし、アネモネでのクロールからzipを実行します
私はアネモネジェム(Ruby-1.8.7およびRails 3.1.1)を使用してクローラーを開発しています。拡張子がpdf、doc、zipなどのWebページをクロール/ダウンロードからスキップするにはどうすればよいですか。
ruby - Ruby+Anemone Web Crawler: 一連の数字で終わる URL に一致する正規表現
次のように終了したページをスキップして、Web サイトをクロールしようとしていたとします。
http://HIDDENWEBSITE.com/anonimize/index.php?page=press_and_news&subpage=20060117
現在、Ruby で Anemone gem を使用してクローラーを構築しています。skip_links_like メソッドを使用していますが、パターンが一致しないようです。=2105925
これを可能な限り汎用的にしようとしているので、サブページに依存するのではなく、(数字)だけに依存します。
試してみ/=\d+$/
まし/\?.*\d+$/
たが、うまくいかないようです。
これは、アネモネでのクロールから拡張子 pdf、zip を使用して Web ページをスキップすることに似ていますが、拡張子の代わりに数字を使用することはできません。
また、パターンを使用してhttp://regexpal.com/でテストすると、=\d+$
正常に一致しますhttp://misc.com/test/index.php?page=news&subpage=20060118
編集:
これが私のコード全体です。何が悪いのか正確にわかる人がいるのだろうか。
私の出力は次のようなものです:
ruby - Anemone を使用したサブドメインのクロール
アネモネを使用しています。サブドメインもクロールするにはどうすればよいですか? たとえば、ウェブサイトがある場合www.abc.com
、クローラーもクロールする必要がありsupport.abc.com
ますblah.abc.com
。Ruby 1.8.7 と Rails 3 を使用しています。
mongodb - Rails と MongoDB を使用したアネモネ
初めての Web クローラーを作成する準備をしていますが、Anemoneが最も理にかなっているようです。MongoDB ストレージの組み込みサポートがあり、Rails アプリケーションで Mongoid 経由で MongoDB を既に使用しています。私の目標は、クロールされた結果を保存し、後で Rails 経由でアクセスすることです。いくつかの懸念があります。
1)このページの最後に、「注:すべてのストレージ エンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。」と記載されています。デフォルトのメモリ ストレージを使用していた場合、これはクロールの最後に発生すると予想されますが、次にタスクを実行するときに重複するページがクロールされないように、レコードを無期限に MongoDB に保存するべきではありませんか? それらが「新しいクロールを開始する前に」消去された場合、次のクロールの前に Rails ロジックを実行する必要がありますか? もしそうなら、前回のクロールからの重複レコードをチェックしなければならなくなります。
2) Rails モデルのコンテキスト外で MongoDB を使用することについて真剣に考えたのはこれが初めてです。レコードはPage
クラスを使用して作成されているように見えますが、後で通常 Mongoid を使用するようにクエリを実行できますか? ファンシーメソッドを提供するORMがあれば、それは単に「モデル」と見なされると思いますか?
ruby - ルビー/アネモネ/ノコギリでサイトから製品をこすり取る方法
ルビーのアネモネとノコギリライブラリを使用してeコマースサイトから製品をスクレイプすることは可能ですか?
nokogiriを使用して各製品ページから必要なデータを取得する方法は理解していますが、anemone/nokogiriでサイトをクロールしてすべての製品ページを取得する方法がわかりません。
正しい方向へのプッシュは大歓迎です
ruby - ルビースクレーパー。CSVにエクスポートする方法は?
このルビースクリプトは、メーカーのWebサイトから製品情報を取得するために作成しました。配列内の製品オブジェクトのスクレイピングとストレージは機能しますが、配列データをcsvファイルにエクスポートする方法がわかりません。このエラーがスローされています:scraper.rb:45:main:Objectの未定義のメソッド `send_data'(NoMethodError)
私はこのコードを理解していません。これは何をしているのですか、なぜ正しく機能しないのですか?
完全なコード: