問題タブ [screen-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
screen-scraping - サードパーティに代わってパスワードで保護されたサイトをスクリーン スクレイピングするにはどうすればよいですか?
あなたの幻想的な野球チームを分析し、1 日に複数回、推奨されるアクションを通知するプログラムを作成したいと考えています。問題は、あなたが私のサイトでファンタジー ベースボールをプレイしているのではなく、yahoo、cbs、espn などでプレイしていることです。
これらのサイトの大部分では、ファンタジー チームとリーグは公開されていないため、リーグ内のチームを表示するには、ログインしてリーグのメンバーである必要があります。
必要なのは、サーバーに送信されるこれらの各サイトのチーム ページのプレーンな html だけです。サーバーでファイルを解析および分析し、ユーザー通知を送信できます。
問題は、必要なときにこのデータをサーバーに簡単に取得するために、ユーザー名とパスワードの組み合わせが必要なことです。yahoo/espn/cbs のパスワードを私に任せたくない人はたくさんいると思います。
この問題を解決するためのいくつかの可能な方法を考え出しました。
最も明白な方法は、チームがホストされているサイトの資格情報を要求することです。次に、プログラムでログインして、必要なデータを要求するだけです。多くの人が私に自分の資格情報を提供することを快く思っていると思いますが、多くの人はそうではありません。
ユーザーがダウンロードするデスクトップクライアントを作成します。クライアントは資格情報を必要としますが、基本的にサーバーベースのバージョンとまったく同じことを行い、ログインし、ページを要求し、ページをサーバーに送り返すことができます. 違いは、パスワードがデスクトップから離れる必要がないことです。このメソッドが機能するには、コンピューターの電源が入っていて、このプログラムが実行されている必要があります。
必要なページに移動するブラウザー アドオンを作成し、前回のログインで保存された Cookie を使用してサイトにログインし、そのページをサーバーに送り返します。これにより、ソフトウェアがパスワードを要求する必要はありませんが、Cookie の有効期限が切れると、私はうんざりし、ブラウザのアドオンについてはあまり知りません。
他のオプションがあると確信していますが、これらは私がこれまでに思いついたものです。
2 つの質問があります: 1. このタイプのタスクの他の可能性は何ですか? 2. 人々が yahoo (たとえば) のパスワードを教えたがらないことを過大評価していませんか? 選択肢 (1) は当然の選択ですか?
ヤフーのパイプを試すようコメントで提案されましたが、有望な提案のように見えたので、少し調べてみました。これを見て、それは選択肢ではないと思います。したがって、オプション 1 を使用することになるようです。
perl - Perl を使用して YouTube にログインするにはどうすればよいですか?
YouTube アカウントに接続する Perl スクリプトを作成しようとしていますが、うまくいきません。基本的には自分のアカウントに接続したいだけですが、明らかに機能していません。これをどのようにデバッグできるかさえわかりません! 多分それはhttpsプロトコルに関連するものですか?
教えてください!前もって感謝します。
私がやっていることは、perl の Web 機能を学習することなので、wwwlib または機械化以外のライブラリを使用して仕事を終わらせたくありません。perl スクリプトを使用して自分のアカウントに接続するにはどうすればよいですか? これが今の私の目的です。誰かがスクリプトを投稿したり、私のものを修正したりできることを願っています。助けてくれてありがとう。私は今Webscarabをテストしています..
.net - .NET WebRequest/WebResponse は、アクセント記号、分音記号、およびエンティティを正しく変換できますか?
.NET の WebRequest を使用して、自分のページを一時的なハックとして "スクリーン スクレイピング" しています。
これはうまく機能しますが、アクセント記号付きの文字と分音記号付きの文字は正しく変換されません。
.NET の多くの組み込みプロパティとメソッドを使用して、それらを正しく変換する方法があるかどうか疑問に思っています。
ページを取得するために使用しているコードは次のとおりです。
python - HTML ページのすべての IP を見つける
Python で HTML ページを取得し、そこからすべての IP を出力したいと考えています。IP を次のように定義します。
×。×。×。x : y
x = 0 ~ 256 の数値。 y = 7 桁未満の数値。
ありがとう。
php - 正規表現を使用して Web ページからデータを抽出するにはどうすればよいですか?
一部の性犯罪者に関する情報を収集するための curl スクリプトを作成しています。以下のようなリンクを取得するスクリプトを開発しました。
http://criminaljustice.state.ny.us/cgi/internet/nsor/... (切り抜き URL)
このリンクに移動すると、このページのすべてのフィールドの下にある、犯罪者 ID:、姓などの情報を独自の変数に取得したいと考えています。私は正規表現が非常に苦手なので、ここにいます。それとも別の方法がありますか?
誰かがそれをするのを手伝ってくれますか?
python - python-beautifulsoupは私のhtmlを誤って報告していますか?
私の知る限りでは、それぞれ 2 台のマシンがあり、python 2.5 と BeautifulSoup 3.1.0.1 を実行しています。
以下を使用してhttp://utahcritseries.com/RawResults.aspxをスクレイピングしようとしています:
私の Windows マシンでは、日付とイベント名のリストである正しい結果が得られます。私のMacでは、そうではありません。代わりに、私は得る
私が気づいているのは、
私の Windows マシンでは、tr データはソース html とまったく同じに見えます。テーブルの 2 行目の style タグに注意してください。最初の 2 行は次のとおりです。
私の Mac では、最初の 2 行を印刷すると、スタイル情報が tr タグから削除され、各 td フィールドに移動されます。なぜこれが起こっているのかわかりません。BeautifulSoup が他のすべての日付の周りにフォント タグを配置しているため、他のすべての日付値に対して None を取得しています。macの出力は次のとおりです。
Windows でスクリプトが正しい結果を表示しています - Mac を正しく動作させるにはどうすればよいですか?
php - Web ページのコンテンツを取得するために curl が機能しないのはなぜですか?
curl スクリプトを使用してリンクに移動し、そのコンテンツを取得してさらに操作しています。以下はリンクとcurlスクリプトです:
しかし、ウェブサイトはスクリプトを介してそれを除外していませんが、結果としてユーザーに例外を与えていますが、通常ブラウザにURLを貼り付けると、ページは完全に正常に開きます.
私がここで間違っていることを助けてください。
感謝と敬意
python - Python lxmlスクリーンスクレイピング?
PythonでHTML解析を行う必要があります。いくつかの調査の後、lxml が私の最良の選択のようですが、私がやろうとしていることを助ける例を見つけるのに苦労しています。これが私が聞いている理由です。表示可能なすべてのテキストのページをスクレイピングする必要があります。すべてのタグと JavaScript を取り除きます。表示可能なテキストを残すために必要です。十分に単純に聞こえます..私はHTMLParserでそれを行いましたが、JavaScriptをうまく処理していません
lxmlでこれを行う方法、またはHTMLParserを使用するより良い方法についてのアイデア..追加のライブラリが必要ないため、HTMLParserが最適です..みんなに感謝します
スコット F.
python - スクレイプをスクリーニングするためにプログラムで Web サイトにログインする最良の方法は何ですか? (できれば Python で)
プログラムで Web サイトにログインし、サイトから定期的に情報を取得できるようにしたいと考えています。これをできるだけ簡単にするための最良のツールは何ですか? Python に習熟したいので、何らかの種類の Python ライブラリを使用したいと思いますが、どんな提案も歓迎します。
c++ - Web スクレイピングのオプション - C++ バージョンのみ
Web スクレイピングに適した C++ ライブラリを探しています。
それはC/C++ でなければならないので、C++ が言及されていないHTML スクレイピングのオプションやその他の SO の質問/回答に私を誘導しないでください。