問題タブ [screen-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1543 参照

shell - iTunes トップ X の RSS フィードをスクレイピングして dB に挿入したい

できれば、いくつかの bash シェル スクリプト、おそらく PHP または PERL と MySQL db を使用してそうしたいと考えています。考え?

0 投票する
2 に答える
6939 参照

asp.net - Twitter で特定の単語の結果数をカウントする

私の個人的なプロジェクトを促進するために、私はTwitter でユーザーが指定した単語の結果の数をカウントする方法を熟考してきました。私は彼らの API を広範囲に使用してきましたが、特定の単語の出現回数を数えるための効率的または中途半端な方法を思い付くことができませんでした。実際の結果は重要ではなく、全体的な数だけです。頭を掻き続けます。アイデアや方向性を示すものは大歓迎です。

http://search.twitter.com/search?q=tomatoes

0 投票する
6 に答える
4148 参照

html - HTML 解析にはどの言語/ツールを使用すればよいですか?

以前の経験に基づいてデータを抽出したい Web サイトがいくつかありますが、これは思ったほど簡単ではありません。なんで?単純に、解析する必要がある HTML ページが適切にフォーマットされていないためです (終了タグがないなど)。

使用できる技術、言語、またはツールに関して制約がないことを考慮して、HTML ページからデータを簡単に解析および抽出するための提案は何ですか? 私は HTML Agility Pack や BeautifulSoup を試しましたが、これらのツールでさえ完璧ではありません (HTML Agility Pack にはバグがあり、BeautifulSoup 解析エンジンは私が渡したページでは機能しません)。

0 投票する
4 に答える
71192 参照

php - ウェブページのコンテンツをスクレイピングする

バックグラウンドでWebサイトのコンテンツをスクレイピングし、そのスクレイピングされたWebサイトから限られたコンテンツを取得したいプロジェクトを開発しています。たとえば、私のページには「userid」フィールドと「password」フィールドがあり、それらを使用してメールにアクセスし、受信トレイの内容をスクレイピングしてページに表示します。

私はjavascriptのみを使用して上記を行いました。しかし、サインイン ボタンをクリックすると、ページの URL ( http://localhost/web/Login.html ) が URL ( http://mail.in.com/mails/inbox.php?nomail= ) に変更されます。 ... .) 私は削​​られます。ただし、URL を変更せずに詳細を破棄します。

0 投票する
2 に答える
3209 参照

ruby - www::mechanize 使用時の Iconv::IllegalSequence

私は少しウェブスクレイピングをしようとしていますが、WWW:Mechanize gem はエンコーディングを好まないようで、クラッシュします。
投稿リクエストの結果、302 リダイレクトが発生し (これは機械化されていますが、これまでのところ良好です)、結果のページがクラッシュしたように見えます。私はかなりグーグルで検索しましたが、これを解決する方法はこれまでのところ何もありませんでした。アイデアはありますか?

コード:

エラー:

0 投票する
6 に答える
3347 参照

security - 行儀の良いボットをブロックせずに Web スクレイピングをブロックするにはどうすればよいですか?

製品の大規模なデータベースを備えた e コマース Web サイトを構築しています。もちろん、Goggle が Web サイトのすべての製品をインデックスに登録すると便利です。しかし、競合他社が Web サイトをWeb Scrapeして、すべての画像と製品の説明を取得したいと考えている場合はどうでしょうか?

同様の製品リストを持ついくつかのWebサイトを観察していましたが、CAPTCHAを配置しているため、「人間のみ」が製品リストを読み取ることができます. 欠点は... Google、Yahoo、またはその他の「行儀の良い」ボットには見えないことです。

0 投票する
2 に答える
1361 参照

python - selectorgadget.comを使用したHTMLファイルの解析

美しいスープとセレクターガジェットを使用してWebサイトをスクレイプするにはどうすればよいですか。たとえば、私はWebサイト(newegg製品)を持っており、スクリプトでその製品のすべての仕様を返すようにします([仕様]をクリックします)。つまり、Intel、デスクトップ、......、2.4GHzです。 、1066Mhz、......、3年間限定。

セレクターガジェットを使用した後、文字列.descを取得します

これはどのように使用しますか?

ありがとう :)

0 投票する
15 に答える
1434 参照

security - Web ページ上の特定のデータのスクレイピングを保護するにはどうすればよいですか?

各リクエストの後に表示される特定の番号のみを保護したい。そのような数は約30あります。これらの数字の代わりに画像を生成する予定でしたが、キャプチャのように画像がゆがんでいない場合、スクリプトはとにかく数字を解読できませんか? また、画像の読み込みとテキストの読み込みはどの程度のパフォーマンス ヒットになるのでしょうか?