“anemone”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

545 参照

ruby-on-rails - Anemone はハードドライブにローカルに保存されている html ファイルをクロールできますか?

私は、オンラインにある数万ページの政府データ (数千のフォルダーにある) を集めて、すべてを 1 つのファイルにまとめたいと考えています。プロセスを高速化するために、まずサイトをハードドライブにダウンロードしてから、アネモネ + ノコギリなどでクロールすることにしました。政府サイトのオンライン URL でサンプルコードを試したところ、すべて正常に動作しましたが、URL をローカルファイルパスに変更すると、コードは実行されますが、何も出力されません。コードは次のとおりです。

そのため、ローカルファイル名では何も出力されませんが、対応するオンライン URL をプラグインすると正常に動作します。Anemone はどうにかしてローカルディレクトリ構造をクロールできませんか? そうでない場合、このクロール/スクレイピングを行うための他の提案された方法はありますか?それとも、サイトのオンラインバージョンで Anemone を実行するだけでよいでしょうか? ありがとう。

2012-05-31T16:48:44.517

0 投票する

1 に答える

544 参照

ruby - アネモネでサブフォルダだけクロールする方法

アネモネ (例: ) を使用してホール Web サイトをクロールすることはできますが、特定のフォルダー (例: https://stackoverflow.com/https://stackoverflow.com/ )のみに焦点を当てたい場合はどうすればよいでしょうか。これどうやってするの？おそらく「focus_crawl」メソッドで？questions

ruby web-crawler anemone

2012-08-08T16:12:53.180

0 投票する

1 に答える

343 参照

ruby - anemone を使用して Web サイトから URL のリストを取得する際のエラー

コード：

このコードを試すと、その Web サイトのすべての URL のリストを取得する必要がありますが、取得できるのは Web サイトの名前だけです。エラーの可能性と、すべての URL のリストを取得するにはどうすればよいですか?

ruby anemone

2012-09-04T08:51:13.830

0 投票する

2 に答える

339 参照

ruby - Rubyでの正規表現

http://www.example.com/books?_pop=mheader

これに一致する正規表現と、パターンの1つが一致するときにURLに「本」が含まれるURLは何でしょうか。このサイトには、本のカテゴリとその下にある他のさまざまなサブカテゴリがあります。トラバースしてすべてのURLで本を検索するにはどうすればよいですか？

ruby regex anemone

2012-09-07T05:13:30.423

0 投票する

1 に答える

404 参照

ruby-on-rails - URLだけを保存するRails AnemoneとPostgres

on_pages_likeURLを特定の一致に保存したい。アネモネはその役割を果たしており、URL を保存するレコードが作成されていますが、次のようになります。

find_or_create_by_urlの代わりにのようなものを使用したいcreate!ので、毎回レコードを複製しません。
URLを保存したい。現在、URL は次のように DB に保存されています。

--- !ruby/object:URI::HTTP スキーム: http ユーザー: パスワード: ホスト: www.a4apps.com ポート: 80 パス: /Websites/SampleCalendar/tabid/89/Default.aspx クエリ: 不透明: レジストリ: フラグメント: パーサー:

私はそれが好きです：

Postgres テーブルに保存する理由は、後で別のタスクで各レコードの URL を使用してそのテーブルを変更する必要があるためです。私はこれが初めてで、2 つ目の DB を追加するという考えに少し圧倒されました。アネモネのサイトで提案されました。

ここ数日、基本的なコードを微調整してみましたが、まだ解決策が見つかりません。

これは私のレーキタスクです:

私のビューは、データを Web ページに出力する以外に何もしません。

私のコントローラー：

ruby-on-rails ruby postgresql anemone

2012-11-01T13:38:25.450

0 投票する

0 に答える

238 参照

ruby - アネモネは、再クロール時に以前に保存されたページを保持できますか

スパイダーフレームワークの Anemone について知りました。そのサイトは言った

注: すべてのストレージエンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。

質問:これを回避できるかどうか疑問に思っています。つまり、クロールされたものを保持し、新しいクロール中にコピーを更新/更新できますか?

根拠:

Anemone をリモート Web ページのローカルストアとして使用したいと考えています。私の既存のページパーサーは、そこから Nokogiri dom ドキュメントオブジェクトにアクセスできます。多くのページパーサーが同じ URL アドレスにアクセスする必要があるため、これにより同じページの重複したフェッチを回避できます。

さらに、Anemone は http expire ヘッダーを使用して、ページが更新されたかどうかを判断するのに十分なほど賢く、再ダウンロードする必要があります (以前の dom ドキュメントがあるため)。

ruby web-crawler anemone

2012-11-23T04:08:29.740

0 投票する

1 に答える

223 参照

ruby - アネモネは最初のページにリンクを印刷します

私が間違っていたことを見たかった。ここ。

別のドメインのリンクであっても、親ページにリンクを印刷する必要があります。そして出て行け。

私は何を正しくやっていないのですか？

編集：何も出力しません。

ruby anemone

2013-03-27T05:52:34.383

0 投票する

1 に答える

1028 参照

ruby - Anemone Web Spider による HTTP 基本認証

サイトのすべてのページからすべての「タイトル」を収集する必要があります。
サイトには HTTP 基本認証構成があります。
認証なしで次に行います：

しかし、HTTP 基本認証に問題があります... HTTP 基本認証
を使用してサイトからタイトルを収集するにはどうすればよいですか?
「Anemone.crawl(" http://username:password@example.com/ ")" を使用しようとすると、最初のページのタイトルしかありませんが、他のリンクにはhttp://example.com/スタイルがあり、401 を受け取りました。エラー。

ruby web-crawler anemone

2013-05-30T21:22:01.323

問題タブ [anemone]

Reference