“anemone”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

157 参照

ruby - Ruby Anemone 実行時の Heroku H12 リクエストのタイムアウト

ユーザー指定のドメインで Anemone (Ruby Web スパイダー/クローラー) を実行する Heroku でホストされている Ruby アプリがあります。ユーザーが中規模から大規模のドメインを選択すると、ドメインがクラッシュし、ログに H12 エラー (要求タイムアウト) が表示されます。

これは、Anemone の実行に時間がかかり (>30 秒)、実行中にユーザーにフィードバックがないためです。アネモネに更新をユーザーに表示させる方法、またはステータスバーを組み込む方法はありますか? サイトのクラッシュを防ぐ方法はありますか? Anemone のドキュメントには、ドメインをスパイダー化する「ピースごと」の方法を許可するものは何もありませんでしたが、何かできることがあるはずです。

https://devcenter.heroku.com/articles/error-codes#h12-request-timeout
http://anemone.rubyforge.org/

2013-08-01T20:42:40.597

0 投票する

1 に答える

141 参照

ruby - Anemone / Nokogiri Web スクレーパーで NIL を処理するには?

ボンネットの下にノコギリを使ったアネモネでスクレイパーを書いています。

.details h2'セレクターが HTML にないために何も返さない場合があり、セレクターを呼び出すtextと例外がスローされます。

あちこちでif/elseを避けたい...

一貫性のないマークアップによって生成されたエラーを処理する、より雄弁な方法はありますか? たとえば、CoffeeScript には存在演算子がありperson.name?.first()ます。HTML に要素がある場合は、オブジェクトを作成してテキストを呼び出します。そうでない場合は、先に進み、ハッシュに追加しないでください。

ruby nokogiri scraper anemone

2013-08-13T20:47:58.647

0 投票する

2 に答える

1305 参照

ruby - anemone gem を使用してすべての URL を取得する (非常に大きなサイト)

インデックスを作成したいサイトはかなり大きく、1.x 百万ページです。私は本当にすべての URL の json ファイルが必要なので、それらに対していくつかの操作 (並べ替え、グループ化など) を実行できます。

基本的な anemome ループはうまく機能しました。

しかし（サイトのサイズのせい？）しばらくすると端末がフリーズしました。そのため、MongoDB をインストールし、以下を使用しました。

現在実行中ですが、朝に戻ったときにjsonファイルに出力があると非常に驚かれることでしょう-MongoDBを使用したことがなく、ストレージの使用に関するアネモネのドキュメントの部分が明確ではありませんでした（私には少なくとも）。以前にこれをやったことがある人は、ヒントを教えてもらえますか?

ruby anemone

2013-08-21T20:35:35.140

0 投票する

2 に答える

1502 参照

ruby-on-rails - Anemone、Boilerpipe、Nokigiri で 500 Internal Server Error と 404 Page Not Found を処理する方法

Web サイトをクロールする必要があるツールを実装しています。クロールにはアネモネを使用しており、各アネモネのページではボイラーパイプとノコギリを使用して HTML 形式などを管理しています。

私の問題は、500 内部サーバーエラーが発生した場合、ページがないために Nokogiri が失敗することです。

上記の場合、500 内部サーバーエラーが発生すると、アプリケーションは Nokogiri::HTML.parse() でエラーを返します。この問題は避けたい。サーバーでエラーが発生した場合、このページを無視して計算を続行します。

これらのツールで 500 Internal Server Error と 404 Page Not Found を処理する方法はありますか?

よろしく、ヒューゴ

ruby-on-rails ruby nokogiri http-error anemone

2013-09-02T20:35:51.340

0 投票する

1 に答える

110 参照

ruby - アネモネとの URL 構造のマッチング

現在、アネモネで次のことを行っています。

でもやりたい

代わりに、次のような URL からのみクロールします。

http://www.findbrowsenodes.com/us/Apparel/1036682 http://www.findbrowsenodes.com/us/Apparel/1040664 http://www.findbrowsenodes.com/us/ArtsAndCrafts/2617942011 http://www .findbrowsenodes.com/us/Baby/165797011

どのようにアイデアはありますか？

ruby anemone

2013-09-04T10:02:15.173

0 投票する

1 に答える

207 参照

ruby - Socksify gem と Tor で anemone を使用してページデータにアクセスできない

anemone gem を使用してウェブサイトをクロールする Ruby スクリプトを作成しました。スクリプトは、直接使用すると問題なく実行されます。

しかし、スクリプトからのすべてのTCP呼び出しがsocks5でルーティングされるように、socksify gemを使用したいと思います. 同じために次のことを行いました。

Torプロジェクトをインストールして開始し、自分のマシンで実行しています
インストールされたsockify gem
ここsocksify_ruby localhost 9050 myscript.rbに示されているように、次のコマンドを実行しました

ただし、この場合、アネモネはページを検出しません。私がやっている間違いを教えてください。

ruby scrape tor anemone

2013-09-08T05:19:27.330

0 投票する

1 に答える

1477 参照

ruby-on-rails - Ruby Web クローラー gem からループの出力をテキスト・ファイルに書き込む

私は完全な Ruby 初心者で、現在 Treehouse のチュートリアルを進めていますが、仕事用に Anemone クロールのコンテンツをテキストファイルに出力するための簡単なヘルプが必要です (私は SEO です)。次の出力をテキストファイルにダンプするにはどうすればよいですか?

助けていただければ幸いです。

ruby-on-rails ruby anemone

2013-10-03T09:57:19.150

0 投票する

1 に答える

1334 参照

ruby-on-rails - Rails の Web クローラー、サイトのすべてのページをクロールする方法

特定のドメインのすべてのページからすべての URL を取得する必要があります。バックグラウンドジョブを使用し、クモの巣を使用しようとする
複数のキューにそれらを配置するのは理にかなっていると思いますが、非常に紛らわしい宝石のようです。 anomone 、 anemone は長い間機能していますページ数が多い場合

何が私に一番合うと思いますか?

ruby-on-rails web-crawler resque anemone

2013-10-11T05:32:17.437

0 投票する

2 に答える

175 参照

ruby - アネモネルビースパイダー - ドメイン名なしでキー値配列を作成する

Anemoneを使用してドメインをスパイダーしていますが、正常に動作します。

クロールを開始するコードは次のようになります。

これは、次のようにドメインのすべてのページ URL を非常にうまく出力します。

私がやりたいことは、キーの URL の最後の部分と、値の URL「ドメインを引いたもの」を使用して、キーと値のペアの配列を作成することです。

例えば

これが初歩的なものである場合は申し訳ありませんが、私はRuby初心者です。

ruby anemone

2013-10-23T11:55:32.610

0 投票する

3 に答える

673 参照

google-analytics - カスタムクローラーで偽の分析統計を防止する

PhantomJS やAnemoneのような Ruby クローラーを使用して、Google アナリティクスの偽の統計情報を防ぐ方法はありますか?

私たちの監視ツール (両方に基づいています) は、クライアントからサイトをクロールし、特定のドメイン内の各リンクのリンクステータスを更新します。

巨大なトラフィックをシミュレートする問題。

Cookie やヘッダーなどを使って「私はロボットです。追跡しないでください」などと言う方法はありますか?

( クローラー IP を [フィルターとして] Google アナリティクスに追加することは、最善の解決策ではない可能性があります )

前もって感謝します

google-analytics phantomjs robot anemone

2013-11-15T10:21:34.923

問題タブ [anemone]

Reference