問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
4084 参照

php - コマンドラインphp経由で引数を渡す

だから私はコマンドライン経由で引数を渡そうとしているこのスクリプトを持っています。しかし、それを機能させることはできません。スクリプトのコードは次のとおりです。

0 投票する
1 に答える
117 参照

php - HTMLタグのカウント-変化率の公式

私は、さまざまなWebサイトに追加または削除されたhtmlタグの変更率を計算するための統計的な式を見つけようとしています。

したがって、たとえば、私が書いているスクレーパーを使用して、初期タグカウントを取得し、その値をキャッシュします。その後、次のラウンドで、取得した現在のタグ数と過去のタグ数を比較し、変化率の違いに基づいてパーセンテージを計算します。

Webサイトがスクレイピングされた回数、これらのスクレイプが発生した日付など、その他の要因もここに含まれます。

この性質の何かのための理想的な公式は何でしょうか?

0 投票する
0 に答える
500 参照

internationalization - OpenGraph スクレーパーがロケールを受け入れない

Open Oraph オブジェクトの国際化で問題が発生しました。

opengraph オブジェクトを特定のロケールでスクレイピングするようにスクレイパーに依頼すると、オブジェクトは最初にデフォルトのロケールで、つまりパラメーター fb_locale なしでスクレイピングされ、その後、正しいロケールで、つまり fb_locale=[LOCALE] でスクレイピングされます。スクレイプの戻り値には、最初のデフォルト ロケール (en_US) のスクレイプの結果が含まれており、オブジェクトは、慢性でもフィードでも正しいロケールで表示されません。

ここに私の電話があります:

次に、最初のスクレイピングが Facebook によって行われます。

次に、2 番目のスクレイピングは facebook によって行われます。

スクレーパーは次を返します。

オブジェクトが 2 回スクレイピングされ、ローカライズされたバージョンが保存されない理由について何か提案はありますか?

0 投票する
1 に答える
1918 参照

curl - URLに基​​づいて画像をダウンロードして画像名を保存する方法は?

Web ページからすべての画像をダウンロードし、画像名の先頭に Web ページの URL (すべての記号をアンダースコアに置き換えます) を付けるにはどうすればよいですか?

たとえば、http://www.amazon.com/gp/product/B0029KH944/からすべての画像をダウンロードする場合、メインの製品画像は次のファイル名を使用して保存されます。

www_amazon_com_gp_product_B0029KH944_41RaFZ6S-0L._SL500_AA300_.jpg

私は WinHTTrack と wget をインストールしましたが、おそらく必要以上の時間を費やしましたが、うまくいきませんでした。スタック オーバーフローは私の最後の努力です。(サイト構造に従ってファイルを保存するようにビルド オプションを設定し、親ディレクトリに基づいてファイルの名前を変更するスクリプトを記述した場合、WinHTTrack はそれに近づきましたが、問題は、メイン イメージが別のドメインでホストされていることです。)

0 投票する
1 に答える
135 参照

php - ScraperWiki: html を保存して 1 回だけロードする方法

スクレイパーを実行すると、次のメソッドを使用して URL が読み込まれます。

そのため、新しいコードをスクレイパーに追加して試してみるたびに、html が再度読み込まれ、かなりの時間がかかります。

$html を保存して、初回のみロードする方法はありますか?

0 投票する
3 に答える
28974 参照

python - 無限スクロールでウェブサイトをスクレイピング

私は多くのスクレーパーを作成しましたが、無限スクローラーの処理方法がよくわかりません。最近、ほとんどのウェブサイトなど、Facebook、Pinterest には無限のスクローラーがあります。

0 投票する
1 に答える
521 参照

facebook - ウェブサイトに処理用のURLをFacebookのOpenGraphプラットフォームに自動的に送信させるにはどうすればよいですか?

私は年間数十万回の視聴回数を誇るニュースウェブサイトを運営しています。新しいコンテンツが投稿されるたびに(毎週日曜日の夜)、作成者はFacebookに新しいコンテンツへのリンクを投稿するのが好きです。しかし、私が理解している限り、Facebookは24時間ごとにWebサイトをスクレイプするだけです。そのため、リンクをFacebookに貼り付けると、デフォルトのテキストが表示されます。(つまり、ページに埋め込まれたOpenGraphデータではありません)。

Webサイトのすべてのページ(特にニュース記事自体)は、完全なOpenGraphデータでマークアップされています。Facebookのリンターは、埋め込まれたopengraphデータを常に正しく表示します。ただし、新しいページをスクレイプするまで、Facebookには正しく表示されません。

現在、手動による解決策の1つは、すべての新しいURLをFacebookリンターを介して実行し、OpenGraphデータベースでそれらを更新することです。ただ、Facebookに新しい記事が届くたびに直接通知されるような自動化システムが欲しいです。

サイト全体が動的なphpです-誰かが私を正しい方向に向けることができますか?たぶん、各ニュース記事の送信後にFacebookに電話を送信するように適合させることができるコードですか?

どんな助けでも大歓迎です=)

ウェブサイト= Critic.co.nz

0 投票する
1 に答える
1065 参照

web-scraping - Behat/Mink 使用時の GoutteClient の読み込みエラー

Web サイトをロードするために Behat/Mink を使用しようとしています。

インストールには Composer を使用しました。これは私の composer.json です。

インストールを行うために、次のコマンドを実行しました。

すべてがエラー メッセージなしでスムーズにインストールされました。

これは私のindex.phpファイルです:

そして、このコマンドを使用して実行しようとしました:

ただし、次のエラー メッセージが表示されます。

PHP 致命的なエラー: 14 行目の index.php の未定義関数 GoutteClient() の呼び出し

これは次の行を指します:

インストールは、次のドキュメントを使用して行われました。

http://mink.behat.org/

この例は、次のドキュメントに従って実行されました。

https://github.com/Behat/ミンク

私が間違っている可能性があることについて何か提案はありますか?

0 投票する
2 に答える
9789 参照

xpath - XPathとnokogiri; チュートリアル/例?

私はXPathを初めて使用しますが、少し注意が必要です。時々、私はそれがうまくいくはずだと思っているように機能していないことに気づきます。

XPathとNokogiriを使用してWebサイトからデータを取得する場合、Webサイトが複雑な構造であると難しいと感じます。FirePathを使用して要素のXPathを取得していますが、機能しない場合があります。のように、ブラウザによって追加された余分なタグを削除する必要がありますtbody

XPathとNokogiriの良いチュートリアルと例があるかどうか本当に知りたいです。グーグル検索であまり見つかりませんでした。