問題タブ [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - iTunes トップ X の RSS フィードをスクレイピングして dB に挿入したい
できれば、いくつかの bash シェル スクリプト、おそらく PHP または PERL と MySQL db を使用してそうしたいと考えています。考え?
asp.net - Twitter で特定の単語の結果数をカウントする
私の個人的なプロジェクトを促進するために、私はTwitter でユーザーが指定した単語の結果の数をカウントする方法を熟考してきました。私は彼らの API を広範囲に使用してきましたが、特定の単語の出現回数を数えるための効率的または中途半端な方法を思い付くことができませんでした。実際の結果は重要ではなく、全体的な数だけです。頭を掻き続けます。アイデアや方向性を示すものは大歓迎です。
html - HTML 解析にはどの言語/ツールを使用すればよいですか?
以前の経験に基づいてデータを抽出したい Web サイトがいくつかありますが、これは思ったほど簡単ではありません。なんで?単純に、解析する必要がある HTML ページが適切にフォーマットされていないためです (終了タグがないなど)。
使用できる技術、言語、またはツールに関して制約がないことを考慮して、HTML ページからデータを簡単に解析および抽出するための提案は何ですか? 私は HTML Agility Pack や BeautifulSoup を試しましたが、これらのツールでさえ完璧ではありません (HTML Agility Pack にはバグがあり、BeautifulSoup 解析エンジンは私が渡したページでは機能しません)。
php - ウェブページのコンテンツをスクレイピングする
バックグラウンドでWebサイトのコンテンツをスクレイピングし、そのスクレイピングされたWebサイトから限られたコンテンツを取得したいプロジェクトを開発しています。たとえば、私のページには「userid」フィールドと「password」フィールドがあり、それらを使用してメールにアクセスし、受信トレイの内容をスクレイピングしてページに表示します。
私はjavascriptのみを使用して上記を行いました。しかし、サインイン ボタンをクリックすると、ページの URL ( http://localhost/web/Login.html ) が URL ( http://mail.in.com/mails/inbox.php?nomail= ) に変更されます。 ... .) 私は削られます。ただし、URL を変更せずに詳細を破棄します。
ruby - www::mechanize 使用時の Iconv::IllegalSequence
私は少しウェブスクレイピングをしようとしていますが、WWW:Mechanize gem はエンコーディングを好まないようで、クラッシュします。
投稿リクエストの結果、302 リダイレクトが発生し (これは機械化されていますが、これまでのところ良好です)、結果のページがクラッシュしたように見えます。私はかなりグーグルで検索しましたが、これを解決する方法はこれまでのところ何もありませんでした。アイデアはありますか?
コード:
エラー:
security - 行儀の良いボットをブロックせずに Web スクレイピングをブロックするにはどうすればよいですか?
製品の大規模なデータベースを備えた e コマース Web サイトを構築しています。もちろん、Goggle が Web サイトのすべての製品をインデックスに登録すると便利です。しかし、競合他社が Web サイトをWeb Scrapeして、すべての画像と製品の説明を取得したいと考えている場合はどうでしょうか?
同様の製品リストを持ついくつかのWebサイトを観察していましたが、CAPTCHAを配置しているため、「人間のみ」が製品リストを読み取ることができます. 欠点は... Google、Yahoo、またはその他の「行儀の良い」ボットには見えないことです。
python - selectorgadget.comを使用したHTMLファイルの解析
美しいスープとセレクターガジェットを使用してWebサイトをスクレイプするにはどうすればよいですか。たとえば、私はWebサイト(newegg製品)を持っており、スクリプトでその製品のすべての仕様を返すようにします([仕様]をクリックします)。つまり、Intel、デスクトップ、......、2.4GHzです。 、1066Mhz、......、3年間限定。
セレクターガジェットを使用した後、文字列.descを取得します
これはどのように使用しますか?
ありがとう :)
security - Web ページ上の特定のデータのスクレイピングを保護するにはどうすればよいですか?
各リクエストの後に表示される特定の番号のみを保護したい。そのような数は約30あります。これらの数字の代わりに画像を生成する予定でしたが、キャプチャのように画像がゆがんでいない場合、スクリプトはとにかく数字を解読できませんか? また、画像の読み込みとテキストの読み込みはどの程度のパフォーマンス ヒットになるのでしょうか?