問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
8775 参照

python - ScrapyBodyテキストのみ

Python Scrapyを使用して本文からのみテキストをスクレイプしようとしていますが、まだ運がありません。

<body>何人かの学者がここでタグからすべてのテキストを削るのを手伝ってくれるかもしれないことを願っています。

0 投票する
4 に答える
118 参照

php - PHPで文字列から残りの単語を見つけるにはどうすればよいですか?

「氷」を含む単語をスクレイピングしたいページがあるとしましょう。どうすれば簡単にこれを行うことができますか? 物事をソースコードに分解する多くのスクレーパーを見てきましたが、これは必要ありません。Webページのプレーンテキストを検索するものが必要です。

編集: 基本的に、.jpeg を検索してファイル名全体を見つけるために何かが必要です。(ウェブサイトでは平文で表示され、タグに隠されているわけではありません)

0 投票する
1 に答える
5354 参照

perl - CPANモジュールのトラブル

WWW::Mechanizeモジュールをインストールしようとしました

'use WWW :: Mechanize'行でエラーは発生しません。これは、ファイルを検索することを意味しますが、次のようにインスタンス化しようとすると、次のようになります。

次の問題が発生します。

@INCでHTTP/Config.pmが見つかりません(@INCには/Library/Perl/Updates/5.10.0/darwin-thread-multi-2level/Library/Perl/Updates/5.10.0/System/Library/が含まれていますPerl / 5.10.0 / darwin-thread-multi-2level /System/Library/Perl/5.10.0 /Library/Perl/5.10.0/darwin-thread-multi-2level /Library/Perl/5.10.0 / Network / Library / Perl / 5.10.0 / darwin-thread-multi-2level /Network/Library/Perl/5.10.0 / Network / Library / Perl / System / Library / Perl / Extras / 5.10.0 / darwin-thread-multi- 2level /System/Library/Perl/Extras/5.10.0。)/Library/Perl/5.10.0/LWP/UserAgent.pm行746。

何が起こっているのか正確にはわかりません。必要な依存関係はすべて揃っているように感じますが、この特定のエラーが何を意味するのかがわかりません。

私のスクリプトは、前述の行と

誰かがこれに遭遇しましたか?

0 投票する
1 に答える
382 参照

php - PHP を使用して指定された URL で画像を収集し、データベースに保存する

通常、URL を入力して、その URL の画像をデータベースにインポートしようとしています。

ここにいくつかのコードがありますが、代替案は大歓迎です。

$image を BLOB としてデータベースに保存しようとすると、エラーが発生します。

0 投票する
3 に答える
2267 参照

python - XPath クエリの前の属性値から埋め込まれた属性値をどのように抽出しますか?

HTMLの次の部分でonclick属性からリンクを「選択」しようとしています

ただし、次の XPath よりも先に進むことはできません

返すだけ

quickFindForm.actionXPath を使用して内部のリンクを選択する方法についてのアイデアはありますか?

0 投票する
2 に答える
3084 参照

python - 送信フォームの文字エンコーディングの問題を機械化する

http://www.nscb.gov.ph/ggi/database.asp、具体的には自治体/州を選択して取得したすべてのテーブルをスクレイピングしようとしています。私はlxml.htmlとmechanizeでpythonを使用しています。私のスクレーパーは今のところ問題なく動作しますHTTP Error 500: Internal Server Errorが、自治体[19]「アブラのペニャルビア」を提出すると取得します。これは文字エンコーディングが原因であると思われます。私の推測では、en 文字 (上にチルダが付いた n) がこの問題を引き起こしていると思われます。どうすればこれを修正できますか?

私のスクリプトのこの部分の実際の例を以下に示します。私はPythonを使い始めたばかりなので(そして、SOで見つけたスニペットをよく使用します)、さらにコメントをいただければ幸いです。

どうもありがとうございました!

編集:具体的には、この行でエラーが発生します

0 投票する
3 に答える
2089 参照

ruby - Ruby Mechanize Web スクレイパー ライブラリは、ページではなくファイルを返します

私は最近、Ruby で Mechanize gem を使用してスクレイパーを作成しています。残念ながら、私がスクレイピングしようとしている URL は、リクエストに対してMechanize::Fileオブジェクトではなくオブジェクトを返します。Mechanize::PageGET

理由がわかりません。私が試した他のすべての URL は、Mechanize::Pageオブジェクトを返しました。

PageMechanize にオブジェクトを返させる方法はありますか?

0 投票する
1 に答える
700 参照

robots.txt - robots.txt禁止:スパイダー

1回限りのスクレイプを実行したいサイトのrobots.txtファイルを見ていますが、次の行があります。

これは彼らがクモを欲しくないという意味ですか?すべての蜘蛛に*が使われている印象を受けました。もし本当なら、これはもちろんグーグルのようなクモを止めます。

0 投票する
2 に答える
963 参照

html - スクレーパー/不良ボットを検出するためのハニーポットimgタグの使用に関するアドバイス

スクレーパー/不良ボットを検出するために、HTML本体に小さなハニーポット画像を設定したいと思います。

誰かが以前にこのようなものを設定したことがありますか?

私たちはそれを実現するための最善の方法は次のようになると考えていました。

a)次の方法でhtmlをコメントアウトします。

b)次の方法で画像をブラウザから非表示にするcssスタイルを画像に適用します。

上記を使用して、適切で実際のユーザーエージェントが画像をプル/レンダリングしようとする状況を誰かが予測しますか?

honeypot.gifは、ロギングを行うmod_rewrittenphpスクリプトになります。

上記の2つの条件は、適切にコーディングされたスクレーパーによってスキップされる可能性があることは理解していますが、少なくとも、非常に汚れた条件についてはある程度の洞察が得られます。

これを行うための最良の方法に関する他の指針はありますか?

0 投票する
1 に答える
1704 参照

php - ページPhpから価格Divクラスをスクレイプする

上記は出力しているだけです:<<<<<<<<<<なぜこれが起こっているのか誰かが知っていますか?