問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scraper - HTTPヘッダーの問題によるスクリーンスクレイピング - 私は思う
私はこれを約1週間理解しようとしてきましたが、良い解決策を思いつくことができません. それで、誰かが私を助けてくれるかどうか見てみようと思いました。これは、私がこすり取ろうとしているリンクの1つです。
右クリックして画像の場所をコピーしました。これはコピーされたリンクです:
(私は新しいので、これをリンクとして貼り付けることはできません) http:// content (dot) lib (dot) Washington (dot) edu/cgi-bin/getimage.exe?CISOROOT=/alaskawcanada&CISOPTR=491&DMSCALE=100.00000&DMWIDTH =802&DMHEIGHT=657.890625&DMX=0&DMY=0&DMTEXT=%20NA3050%20%09AWC0644%20AWC0388%20AWC0074%20AWC0575&REC=4&DMTHUMB=0&DMROTATE=0
表示されている明確な画像の URL はありません。明らかに、これは画像がある種のスクリプトの背後に隠されているためです。試行錯誤の末、「CISOPTR=491」の後に「.jpg」を入れるとリンクが画像URLになることがわかりました。問題は、これが画像の高解像度版ではないことです。高解像度版にアクセスするには、URL をさらに変更する必要があります。curl と PHP を使用してスクリプトを作成しようとしていることに言及する @Stackoverflow.com の記事をたくさん見つけました。「491」は画像番号です。この番号を変更して、同じディレクトリ内の他の画像を見つけることができます。したがって、一連の数字をスクレイピングするのは非常に簡単なはずです。しかし、私はまだスクレイピングの初心者であり、これは私のお尻を蹴っています. これが私が試したことです。
cURL を使用してリモート イメージを取得し、再サンプリングする
これも試しました。
http://psung.blogspot.com/2008/06/using-wget-or-curl-to-download-web.html
私は Outwit Hub と Site Sucker も持っていますが、それらは URL を画像ファイルとして認識せず、そのまま渡します。SiteSucker を一晩使用したところ、40,000 個のファイルがダウンロードされましたが、60 個だけが jpeg で、必要なファイルはありませんでした。
私が実行し続けるもう1つのことは、手動でダウンロードできたファイルです。ファイル名は常にgetfile.exeまたはshowfile.exeのいずれかであり、拡張子として「.jpg」を手動で追加すると、画像をローカルで表示できます.
元の高解像度画像ファイルに到達し、ダウンロード プロセスを自動化して、これらの画像を数百枚スクレイピングするにはどうすればよいですか?
ruby - ルビー/アネモネ/ノコギリでサイトから製品をこすり取る方法
ルビーのアネモネとノコギリライブラリを使用してeコマースサイトから製品をスクレイプすることは可能ですか?
nokogiriを使用して各製品ページから必要なデータを取得する方法は理解していますが、anemone/nokogiriでサイトをクロールしてすべての製品ページを取得する方法がわかりません。
正しい方向へのプッシュは大歓迎です
ruby - ルビースクレーパー。CSVにエクスポートする方法は?
このルビースクリプトは、メーカーのWebサイトから製品情報を取得するために作成しました。配列内の製品オブジェクトのスクレイピングとストレージは機能しますが、配列データをcsvファイルにエクスポートする方法がわかりません。このエラーがスローされています:scraper.rb:45:main:Objectの未定義のメソッド `send_data'(NoMethodError)
私はこのコードを理解していません。これは何をしているのですか、なぜ正しく機能しないのですか?
完全なコード:
node.js - オンザフライで node.js データ ストリームから URL をスクレイピングする
私は、リアルタイムのウィキペディアの編集をストリーミングする node.js プロジェクト (基本としてウィキストリームを使用しているため、完全に自分のコードではありません) を使用しています。このコードは、各編集を構成要素に分解し、オブジェクトとして保存します ( https://gist.github.com/2770152の要点を参照)。部分の 1 つは URL です。各編集を解析するときに、編集前と編集後のウィキペディア ページの違いを示す各編集の URL をスクレイピングして、違いを取得することが可能かどうか疑問に思っています (「diffchange diffchange-inline」と呼ばれるスパン クラス内)。 、たとえば)、それをオブジェクトの別のプロパティとして追加します。それは単なる文字列である可能性があり、完全に構造化されている必要はありません。
私はnodeioを使用してみましたが、次のようなコードがあります (具体的には、コメント (m[6]) で破壊行為の可能性としてマークされた編集のみをスクレイピングしようとしています):
条件文にヒットすると、一度スクレイピングしてからプログラムを閉じます。目的のコンテンツをオブジェクトのプロパティとして保存しません。条件が満たされない場合、「コンテンツなし」に設定された vandalContent プロパティが保存されます。
私が疑問に思っているのは、その場でこのようにこすることさえ可能ですか? スクレイピングがプログラムを動かしていませんか? 同様の結果を得るために提案された他の方法はありますか?
facebook - E107 リダイレクト facebook スクレイピング エラー
ここに私の .htaccess ファイルがあります:
http://www.lf1medsoc.com/page.php?19の Facebook リンター結果(一般にアクセス可能、ログイン不要など):
(結果ページ全体)
スクレイプ情報
応答コード: 200 取得した URL: http://www.lf1medsoc.com/page.php?19 正規 URL: http://www.lf1medsoc.com/最終 URL: http://www.lf1medsoc.com/page。修正が必要な php?2エラー
循環リダイレクト パス: 循環リダイレクト パスが検出されました (詳細については、「リダイレクト パス」セクションを参照してください)。
リダイレクト パス
オリジナル: http://www.lf1medsoc.com/page.php?19 og:url: http://www.lf1medsoc.com/ 302: http://www.lf1medsoc.com/page.php?2 og: url: http://www.lf1medsoc.com/ 最終 URL は太字です (これは、メタデータを抽出しようとした URL です)。循環リダイレクト パスの一部である URL が強調表示されます。
htaccessに何か不足していますか?アクセスを許可するFacebookユーザーエージェントを追加する方法はありますか
注: page.php?2 はホームページです (lf1medsoc.com からリダイレクト --> index.php --> page.php?2)
facebook-apps - FacebookScraperは画像を取得できません
私のページには、次のようなものがあります。
実行すると、次のようにレンダリングされます。
しかし、Facebookスクレーパーはそれを次のように見ています:
Facebookからの画像を考慮していないようです。
facebook - Facebook 共有ボタン - Scraper がメタ タグを取得しない
私はこのページに取り組んできました http://www.btselem.org/hebrew/131606
Facebook の [Share] ボタンを追加することにしましたが、何らかの理由で共有しようとすると、Facebook スクレイパーはソース内のメタ タグを取得できず、サイトの URL しか表示されません。Facebook 開発者デバッグ ツールで URL を確認したところ、206 応答コードと次のエラーが返されました。
ダウンロードできません - データ フォーム URL を取得できませんでした。
また、「スクレイパーがあなたの URL から見たものを正確に見る」オプションもチェックしましたが、スクレイパーは次の行だけを読み上げているようです。
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
奇妙なことに、これはページのソースにある DOCTYPE でさえありません。私はすでにDOCTYPEを次のように変更しようとしました:
これで問題が解決するはずだと言っている古い投稿を読んだ後、それもうまくいかず、スクレーパーから同じ行を取得し続けています。皆さんが持っているヒントやアイデアに感謝します…</p>
ソースの最初の部分、少なくともメタ タグを含む部分を投稿しました。必要に応じてコード全体を追加します。前もって感謝します、
デビッド。
python - Scrapy で認証された状態で LinkedIn をクロールする
したがって、Scrapy で認証されたセッションを使用してクロールを読みましたが、ハングアップしています。解析コードが正しいことは 99% 確信しています。ログインがリダイレクトされ、成功しているとは思えません。
また、チェックしているページがわからないcheck_login_response()に問題があります..「サインアウト」は理にかなっていますが。
====== 更新 ======
この問題は、self.initialized() の前に「Return」を追加することで解決されました。
再度、感謝します!-マーク
ruby - Rubyでスクレイピングしてハッシュに格納する
Ruby スクレイパーを作成して、カリフォルニア州上院から選挙資金データを取得し、各個人をハッシュとして保存しました。これまでのコードは次のとおりです。
メインのウェブサイトはこちら: http://cal-access.sos.ca.gov/Campaign/Candidates/
候補ページの例を次に示します: http://cal-access.sos.ca.gov/Campaign/Committees/Detail.aspx?id=1342974&session=2011&view=received
そして、コードで私のコメントを見たい場合の github リポジトリは次のとおりです: https://github.com/aboutaaron/Baugh-For-Senate-2012/blob/master/final-exam.rb
コードに...
get_summary
計画どおりに動作します。get_contributors
最初の投稿者<td>
を計画どおりに保存しますが、20 回以上保存します。複数の印刷の問題が解決するまで、今のところ名前を取得することを選択しています。
最終的な目標は、必要なすべての情報を含むコントリビューターのハッシュを取得し、場合によってはコントリビューターを SQL データベース/Rails アプリに移動することです。しかし、以前は、機能するスクレーパーが欲しいだけでした。
アドバイスやガイダンスはありますか?コードが優れていない場合は申し訳ありません。プログラミング超初心者。
python - プロキシを使用してPythonでWebページからソースコードをダウンロードする最速の方法は何ですか?
私はすでにurllib2を使用してプロキシを使用してページを取得していますが、時間がかかりすぎています。
ありがとう。