問題タブ [anemone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
545 参照

ruby-on-rails - Anemone はハード ドライブにローカルに保存されている html ファイルをクロールできますか?

私は、オンラインにある数万ページの政府データ (数千のフォルダーにある) を集めて、すべてを 1 つのファイルにまとめたいと考えています。プロセスを高速化するために、まずサイトをハード ドライブにダウンロードしてから、アネモネ + ノコギリなどでクロールすることにしました。政府サイトのオンライン URL でサンプル コードを試したところ、すべて正常に動作しましたが、URL をローカル ファイル パスに変更すると、コードは実行されますが、何も出力されません。コードは次のとおりです。

そのため、ローカル ファイル名では何も出力されませんが、対応するオンライン URL をプラグインすると正常に動作します。Anemone はどうにかしてローカル ディレクトリ構造をクロールできませんか? そうでない場合、このクロール/スクレイピングを行うための他の提案された方法はありますか?それとも、サイトのオンライン バージョンで Anemone を実行するだけでよいでしょうか? ありがとう。

0 投票する
1 に答える
544 参照

ruby - アネモネでサブフォルダだけクロールする方法

アネモネ (例: ) を使用してホール Web サイトをクロールすることはできますが、特定のフォルダー (例: https://stackoverflow.com/https://stackoverflow.com/ )のみに焦点を当てたい場合はどうすればよいでしょうか。これどうやってするの ?おそらく「focus_crawl」メソッドで?questions

0 投票する
1 に答える
343 参照

ruby - anemone を使用して Web サイトから URL のリストを取得する際のエラー

コード:

このコードを試すと、その Web サイトのすべての URL のリストを取得する必要がありますが、取得できるのは Web サイトの名前だけです。エラーの可能性と、すべての URL のリストを取得するにはどうすればよいですか?

0 投票する
2 に答える
339 参照

ruby - Rubyでの正規表現

http://www.example.com/books?_pop=mheader

これに一致する正規表現と、パターンの1つが一致するときにURLに「本」が含まれるURLは何でしょうか。このサイトには、本のカテゴリとその下にある他のさまざまなサブカテゴリがあります。トラバースしてすべてのURLで本を検索するにはどうすればよいですか?

0 投票する
1 に答える
404 参照

ruby-on-rails - URLだけを保存するRails AnemoneとPostgres

on_pages_likeURLを特定の一致に保存したい。アネモネはその役割を果たしており、URL を保存するレコードが作成されていますが、次のようになります。

  1. find_or_create_by_urlの代わりに のようなものを使用したいcreate!ので、毎回レコードを複製しません。
  2. URLを保存したい。現在、URL は次のように DB に保存されています。

    --- !ruby/object:URI::HTTP スキーム: http ユーザー: パスワード: ホスト: www.a4apps.com ポート: 80 パス: /Websites/SampleCalendar/tabid/89/Default.aspx クエリ: 不透明: レジストリ: フラグメント: パーサー:

私はそれが好きです:

Postgres テーブルに保存する理由は、後で別のタスクで各レコードの URL を使用してそのテーブルを変更する必要があるためです。私はこれが初めてで、2 つ目の DB を追加するという考えに少し圧倒されました。アネモネのサイトで提案されました。

ここ数日、基本的なコードを微調整してみましたが、まだ解決策が見つかりません。

これは私のレーキタスクです:

私のビューは、データを Web ページに出力する以外に何もしません。

私のコントローラー:

0 投票する
0 に答える
238 参照

ruby - アネモネは、再クロール時に以前に保存されたページを保持できますか

スパイダー フレームワークの Anemone について知りました。そのサイトは言った

注: すべてのストレージ エンジンは、新しいクロールを開始する前に、既存の Anemone データを消去します。

質問:これを回避できるかどうか疑問に思っています。つまり、クロールされたものを保持し、新しいクロール中にコピーを更新/更新できますか?

根拠:

Anemone をリモート Web ページのローカル ストアとして使用したいと考えています。私の既存のページ パーサーは、そこから Nokogiri dom ドキュメント オブジェクトにアクセスできます。多くのページ パーサーが同じ URL アドレスにアクセスする必要があるため、これにより同じページの重複したフェッチを回避できます。

さらに、Anemone は http expire ヘッダーを使用して、ページが更新されたかどうかを判断するのに十分なほど賢く、再ダウンロードする必要があります (以前の dom ドキュメントがあるため)。

0 投票する
1 に答える
223 参照

ruby - アネモネは最初のページにリンクを印刷します

私が間違っていたことを見たかった。ここ。

別のドメインのリンクであっても、親ページにリンクを印刷する必要があります。そして出て行け。

私は何を正しくやっていないのですか?

編集:何も出力しません。

0 投票する
1 に答える
1028 参照

ruby - Anemone Web Spider による HTTP 基本認証

サイトのすべてのページからすべての「タイトル」を収集する必要があります。
サイトには HTTP 基本認証構成があります。
認証なしで次に行います:

しかし、HTTP 基本認証に問題があります... HTTP 基本認証
を使用してサイトからタイトルを収集するにはどうすればよいですか?
「Anemone.crawl(" http://username:password@example.com/ ")" を使用しようとすると、最初のページのタイトルしかありませんが、他のリンクにはhttp://example.com/スタイルがあり、401 を受け取りました。エラー。