問題タブ [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 非 RSS ページをスクレイピングしてフィードを生成する
RSS フィードを生成するために、定期的に更新される (以前の記事とまったく同じ構造の新しい記事を追加する) ページをスクレイピングしたいと考えています。
ページを簡単に分析するコードを書くことはできますが、ping をエミュレートするにはどうすればよいですか。それはcronジョブでなければなりませんか?
(おそらく私が知っている重複した質問ですが、運が悪かったので直接的な答えを探しました。私が得た最も近いものはScrape and generate RSS feedで、これにはスクレイピングスクリプトがありますが、ページの変更に自動的に応答する方法に関する情報はありません)
php - PHP Simple HTML DOM Parser を使用してクラスまたは ID を選択する際にスタックする
PHP Simple HTML DOM Parser を使用してクラスまたは ID を選択しようとしていますが、運がまったくありません。私の例は非常に単純で、マニュアル ( http://simplehtmldom.sourceforge.net/manual.htm ) に記載されている例に準拠しているように見えますが、うまくいきません。単純な dom で指定された他のサンプル スクリプトは問題なく動作します。
誰かが私が間違っているところを見ることができますか?
python - 一致するリンクについてWebサイトのHTMLを検索するPythonスクリプトを作成する方法
私はPythonにあまり精通しておらず、多くの関数を実行するためのスクリプトを作成する必要があります。基本的に、私がまだ必要としているモジュールは、事前に提供された一致するリンクについてWebサイトコードをチェックする方法です。
python - この結果を変数にするにはどうすればよいですか?
現在、ファイルに書き込むように設定されていますが、値を変数に出力したいと考えています。方法がわからない。
c# - ページングと JavaScript リンクが使用されているときに、ASP.NET Web サイトから情報を取得するにはどうすればよいですか?
最新のはずのスタッフ リストが提供されましたが、ASP.NET で作成されたイントラネットの People Finder と一致しません。
情報は機密であるため、People Finder が使用しているデータベースにアクセスすることはできません。そのため、情報を取得する唯一の方法は、最上部の真ちゅうから始めて、各層を順番に調べて構造をスクレイピングすることです。
各人にはスタッフ番号があり、それが URL を形成します。次に、その人に報告するすべての人が、各 URL がスタッフ番号を示し、チームへのリンクを提供するhttp://intranet/peoplefinder/index.aspx?srn=ABC1234
形式で下にリストされます。<a id="gvEmployees_ctl03_lnkFullName" href="index.aspx?srn=ABC4321" target="_self">
などの URL を使用して GridView にページングが実装されているため、チームが大きい場合に問題が発生します<a href="javascript:__doPostBack('gvEmployees','Page$2')">2</a>
。
このページをスクレイピングし、SRN やその他の詳細を GridView のすべてのページでその人に報告する人と共にキャプチャし、各報告先をループして、リスト全体が完了するまで同じプロセスを実行するにはどうすればよいですか?
結果のHTMLの例
php - PHPsimplehtmldomのヘルプ-フォームの変更
私はここでいくつかの大きな助けを得ました、そして私はそれを味わうことができるほど私の問題を解決することに近づいています。しかし、私は立ち往生しているようです。
ローカルWebサーバーから単純なフォームを取得し、ユーザーのローカル電子メール(onemyndseye @ localhost)に一致する行のみを返す必要があります。simplehtmldomを使用すると、正しいフォーム要素を簡単に抽出できます。
戻り値:
しかし、私は次のステップを作るのに苦労しています。'onemyndseye @ localhost'を含む行を返し、それを削除して、次のものだけが返されるようにします。
このサイトの素晴らしいユーザーのおかげで、私はこれまでに取得し、リンクだけを返すこともできますが、残りを取得するのに問題があります... <input>
idとnameの値が必要になるため、完全なタグが上記のように正確に返されることが重要です後で投稿データで元のフォームに戻されます。
前もって感謝します!
***** EDIT ******
Yacobyのおかげで、問題はほぼ解決しました。最後の小さなハードルは、str_ireplaceからゴミが残っていることです。</a>
おそらく、との間のすべてのテキストを削除する方が簡単でしょう<br />
...?
Yacobyの追加後、出力は次のようになります。
[email :(デフォルト)]と[email:]が取り残されていることに注意してください。また、最後にフォームアクションを削除して行を送信する必要がありますが、その部分は前の提案から収集できると思います。
***** SOLVED ****
解決された問題:
助けてくれてありがとう!
php - 現在の Web ページを php/javascript でスクレイピングするにはどうすればよいですか?
インタラクティブな todo リストを生成するために、次の Web ページを作成しました: http://robert-kent.com/todo/todo.php
基本的に、ユーザーは番号付きの todo リストを貼り付け、各タスクは一意の ID を持つ独自の div に配置されます。ユーザーはタスクにメモを追加し (javascript を使用)、タスクが完了したら緑色のチェックをクリックして非表示にすることができます。
ユーザーが入力したメモとともに、完了したタスクと完了していないタスクのレポートを生成する [エクスポート] ボタンを追加したいと思います。少し検索した後、私がやりたいことはページをスクレイピングすることであることがわかりましたが、それを行うための最良の方法についてのかすかな考えはありません. 私が Google で見つけた記事やチュートリアルの多くは、他のサイトのスクレイピングを含んでおり、ページの各 div を反復処理する方法についてはあまり説明していません。
完全なソースはこちら:http://pastebin.com/r7V3P5jK
助言がありますか?
iphone - appcomments.comやandrolib.comなどのWebサイトは、どのようにしてデータ、特にレビューを取得しますか?
彼らはただこすりますか、それともAPIがありますか?
php - ウェブサイトの URL をスクレイピングして画像のパスを取得する
Facebook のファン ページにあるフォト アルバムのリストを作成する単純な php スクリプトをハッキングしています。
Facebook は親切にも Graph API を提供してくれます。この API を使用すると、すばらしいアルバムのリストが返されますが、デフォルトのアルバム イメージのパスは提供されなくなりました。
curl を介してアルバムの URL をロードし、サムネイルを含むテーブルの最初の画像のパスを取得する PHP スクリプトを作成したいと考えています。これは、「UIPhotoGrid_Image」クラスを持つ最初の img タグの「src」値になります。
適切なものを含むレイアウト コードのブロックは次のようになります。
残念ながら、これは私の現在のコーディング能力を超えています...何かアイデアはありますか?
php - divのコンテンツ全体をスクレイプしようとしています
私はこのプロジェクトに取り組んでおり、touch.facebook.comから紹介されたiframe内のFacebookの場所を使用して、近くの場所の非常に小さなリストを追加したいと思っています。touch.facebook.com/#/places_friends.phpを簡単に使用できます。しかし、それはヘッダーや他のナビゲーションバーをロードして、メッセージ、イベントなどのバーを表示します。コンテンツが必要なだけです。
touch.facebook.com/#/places_friends.phpソースを見ると、かなり確信しています。ロードする必要があるのはdivの「コンテンツ」だけです。とにかく、私はphpに非常に慣れていないので、自分の考えをかなり確信しています。私がやろうとしているのはウェブスクレイピングと呼ばれています。
スタックオーバーフローについて理解し、認証などについて心配する必要がないようにするために、ログインページを読み込んで、少なくともスクレーパーを機能させることができるかどうかを確認したいと思います。動作するスクレイピングコードができたら、残りを処理できると確信しています。div内のすべてをロードしました。私はこれが以前に行われたのを見たことがあるので、それが可能であることを知っています。そして、touch.facebook.comにログインしようとしたときに表示されるものとまったく同じように見えますが、上部に青いfacebookロゴがなく、それが私がここで達成しようとしていることです。
これがログインページです。実際のログインボタンにログインするためのテキストボックスを含むdivをロードしようとしています。正しく行われていれば、Facebookのヘッダーバーがぼやけていないものが表示されるはずです。
私はもう試した
空白のページをロードするだけです。
http://simplehtmldom.sourceforge.net/も使ってみました
例の基本セレクターを次のように変更しました
私も試しました
それもうまくいきませんでした