問題タブ [anemone]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Ruby open_uri は常に 404 です (https による git バージョンのリダイレクトを許可します)。
https リダイレクトを許可するopen-uriモジュールを使用しています。
私がやろうとしているのは、ドメインからすべてのページを開くことです。これを行うには、最初にアネモネをクロールします。
私はそれを開こうとしていて、すべての行をコンソールに出力しようとしていますが、コンソールにすべてが出力されているように見えます 404.私のコードを見ると、有効なリンクであってもopen_uriがリンクを開くことができないことを意味します私の知る限り。
ここで何が欠けていますか?
また
コンソールに次のように出力します。
- アップデート
コメントでアドバイスされているように、404 エラーが発生するリンクをカールしようとしましたが、出力のコンソールは 404 ページを返しません。返されたリンクのうち約 40 個を試しましたが、コンソールでカールして 404 を返した後はどれも見つかりませんでした。何かアイデアはありますか?
ruby - break statement in loop not working
I am new to anemone gem. I have written the following code:
Here in break statement I am getting the localjumperror: break from proc-closure. I have no idea how to fix that.
ruby - gems/anemone-0.7.2/lib/anemone/storage.rb:28:`MongoDB': 初期化されていない定数 Mongo::Connection (NameError)
Anemone を使用して、MongoDB を使用しようとすると、次のエラーが発生します。
コードは次のようになります。
助言がありますか?
ruby-on-rails - Anemone でのログインが必要なページのクロール
次の方法で Anemone gem を使用しています。
- 最初の URL (シード) にアクセスし、ページのコンテンツをデータベースに保存し、このページからデータベースへのすべてのリンクも保存します (まだデータベースにないすべてのリンク)。
- データベースから次のリンクを読み込み、そのコンテンツと他のリンクを再度保存します
- 他にリンクがない場合は、すべてのリンクを再度 (一定期間後に) クロールして、古いコンテンツを新しいコンテンツで上書きします。
これはかなりうまく機能しますが、ログインが必要なページをクロールする方法はありますか (ユーザー名とパスワードがわかっている場合)。フォームに入力する機能を提供する Mechanize gem は知っていますが、それを自分のプロセスに統合する方法がわかりません (可能な場合)。または、ログインフォームの「背後」でページをクロールする方法は他にありますか?
ruby-on-rails - Anemone - NoMethodError: nil:NilClass の未定義のメソッド `xpath'
Ruby で Web クローラーを作成する方法を学び始めたところです。このクローラーは、ブログをクロールし、Anemone gem と以下の rake タスクを使用して壊れた外部リンクを見つけるように設計されています...
私のデモ フォルダでは機能していますが、https://arthurdejong.org/webcheck/demo/を使用してテストしたところ、次のエラーが発生しました。
それが問題の原因であるかどうか疑問に思ったので、拡張機能の配列を構築しようとしましたが、これまでのところ運がありません.
これをデバッグする方法や問題を解決する方法についてのヒントはありますか?
ruby - Ruby の Anemone Gem を使用してサイトからすべてのメール アドレスをスクレイピングする
単一ファイルの Ruby スクリプトを使用して、特定のサイトのすべての電子メール アドレスをスクレイピングしようとしています。ファイルの下部には、その特定のページにリストされている電子メール アドレスを持つ URL を使用して、ハードコードされたテスト ケースがあります (したがって、最初のループの最初の繰り返しで電子メール アドレスを見つける必要があります。
何らかの理由で、私の正規表現が一致していないようです: