“scrape”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

1161 参照

php - 非 RSS ページをスクレイピングしてフィードを生成する

RSS フィードを生成するために、定期的に更新される (以前の記事とまったく同じ構造の新しい記事を追加する) ページをスクレイピングしたいと考えています。

ページを簡単に分析するコードを書くことはできますが、ping をエミュレートするにはどうすればよいですか。それはcronジョブでなければなりませんか？

(おそらく私が知っている重複した質問ですが、運が悪かったので直接的な答えを探しました。私が得た最も近いものはScrape and generate RSS feedで、これにはスクレイピングスクリプトがありますが、ページの変更に自動的に応答する方法に関する情報はありません)

2010-02-12T13:08:32.853

0 投票する

1 に答える

3971 参照

php - PHP Simple HTML DOM Parser を使用してクラスまたは ID を選択する際にスタックする

PHP Simple HTML DOM Parser を使用してクラスまたは ID を選択しようとしていますが、運がまったくありません。私の例は非常に単純で、マニュアル ( http://simplehtmldom.sourceforge.net/manual.htm ) に記載されている例に準拠しているように見えますが、うまくいきません。単純な dom で指定された他のサンプルスクリプトは問題なく動作します。

誰かが私が間違っているところを見ることができますか?

php html dom scrape

2010-02-16T11:30:36.630

0 投票する

3 に答える

16454 参照

python - 一致するリンクについてWebサイトのHTMLを検索するPythonスクリプトを作成する方法

私はPythonにあまり精通しておらず、多くの関数を実行するためのスクリプトを作成する必要があります。基本的に、私がまだ必要としているモジュールは、事前に提供された一致するリンクについてWebサイトコードをチェックする方法です。

python scrape

2010-03-04T04:02:46.283

0 投票する

4 に答える

165 参照

python - この結果を変数にするにはどうすればよいですか?

現在、ファイルに書き込むように設定されていますが、値を変数に出力したいと考えています。方法がわからない。

python variables beautifulsoup scrape

2010-03-04T23:41:24.797

0 投票する

2 に答える

4785 参照

c# - ページングと JavaScript リンクが使用されているときに、ASP.NET Web サイトから情報を取得するにはどうすればよいですか?

最新のはずのスタッフリストが提供されましたが、ASP.NET で作成されたイントラネットの People Finder と一致しません。

情報は機密であるため、People Finder が使用しているデータベースにアクセスすることはできません。そのため、情報を取得する唯一の方法は、最上部の真ちゅうから始めて、各層を順番に調べて構造をスクレイピングすることです。

各人にはスタッフ番号があり、それが URL を形成します。次に、その人に報告するすべての人が、各 URL がスタッフ番号を示し、チームへのリンクを提供するhttp://intranet/peoplefinder/index.aspx?srn=ABC1234形式で下にリストされます。<a id="gvEmployees_ctl03_lnkFullName" href="index.aspx?srn=ABC4321" target="_self">

などの URL を使用して GridView にページングが実装されているため、チームが大きい場合に問題が発生します<a href="javascript:__doPostBack('gvEmployees','Page$2')">2</a>。

このページをスクレイピングし、SRN やその他の詳細を GridView のすべてのページでその人に報告する人と共にキャプチャし、各報告先をループして、リスト全体が完了するまで同じプロセスを実行するにはどうすればよいですか?

結果のHTMLの例

c#asp.net vb.net gridview scrape

2010-03-15T18:01:51.133

0 投票する

1 に答える

574 参照

php - PHPsimplehtmldomのヘルプ-フォームの変更

私はここでいくつかの大きな助けを得ました、そして私はそれを味わうことができるほど私の問題を解決することに近づいています。しかし、私は立ち往生しているようです。

ローカルWebサーバーから単純なフォームを取得し、ユーザーのローカル電子メール（onemyndseye @ localhost）に一致する行のみを返す必要があります。simplehtmldomを使用すると、正しいフォーム要素を簡単に抽出できます。

戻り値：

しかし、私は次のステップを作るのに苦労しています。'onemyndseye @ localhost'を含む行を返し、それを削除して、次のものだけが返されるようにします。

このサイトの素晴らしいユーザーのおかげで、私はこれまでに取得し、リンクだけを返すこともできますが、残りを取得するのに問題があります... <input>idとnameの値が必要になるため、完全なタグが上記のように正確に返されることが重要です後で投稿データで元のフォームに戻されます。

前もって感謝します！

***** EDIT ******

Yacobyのおかげで、問題はほぼ解決しました。最後の小さなハードルは、str_ireplaceからゴミが残っていることです。</a>おそらく、との間のすべてのテキストを削除する方が簡単でしょう<br />...？

Yacobyの追加後、出力は次のようになります。

[email :(デフォルト）]と[email:]が取り残されていることに注意してください。また、最後にフォームアクションを削除して行を送信する必要がありますが、その部分は前の提案から収集できると思います。

***** SOLVED ****

解決された問題：

助けてくれてありがとう！

php forms scrape

2010-05-01T15:24:36.493

0 投票する

2 に答える

603 参照

php - 現在の Web ページを php/javascript でスクレイピングするにはどうすればよいですか?

インタラクティブな todo リストを生成するために、次の Web ページを作成しました: http://robert-kent.com/todo/todo.php

基本的に、ユーザーは番号付きの todo リストを貼り付け、各タスクは一意の ID を持つ独自の div に配置されます。ユーザーはタスクにメモを追加し (javascript を使用)、タスクが完了したら緑色のチェックをクリックして非表示にすることができます。

ユーザーが入力したメモとともに、完了したタスクと完了していないタスクのレポートを生成する [エクスポート] ボタンを追加したいと思います。少し検索した後、私がやりたいことはページをスクレイピングすることであることがわかりましたが、それを行うための最良の方法についてのかすかな考えはありません. 私が Google で見つけた記事やチュートリアルの多くは、他のサイトのスクレイピングを含んでおり、ページの各 div を反復処理する方法についてはあまり説明していません。

完全なソースはこちら:http://pastebin.com/r7V3P5jK

助言がありますか？

php javascript webpage scrape

2010-05-15T15:37:57.310

0 投票する

2 に答える

745 参照

iphone - appcomments.comやandrolib.comなどのWebサイトは、どのようにしてデータ、特にレビューを取得しますか？

彼らはただこすりますか、それともAPIがありますか？

iphone android scrape

2010-06-28T19:47:54.580

0 投票する

3 に答える

2201 参照

php - ウェブサイトの URL をスクレイピングして画像のパスを取得する

Facebook のファンページにあるフォトアルバムのリストを作成する単純な php スクリプトをハッキングしています。

Facebook は親切にも Graph API を提供してくれます。この API を使用すると、すばらしいアルバムのリストが返されますが、デフォルトのアルバムイメージのパスは提供されなくなりました。

curl を介してアルバムの URL をロードし、サムネイルを含むテーブルの最初の画像のパスを取得する PHP スクリプトを作成したいと考えています。これは、「UIPhotoGrid_Image」クラスを持つ最初の img タグの「src」値になります。

適切なものを含むレイアウトコードのブロックは次のようになります。

残念ながら、これは私の現在のコーディング能力を超えています...何かアイデアはありますか?

php curl scrape

2010-07-26T13:58:18.957

0 投票する

4 に答える

3771 参照

php - divのコンテンツ全体をスクレイプしようとしています

私はこのプロジェクトに取り組んでおり、touch.facebook.comから紹介されたiframe内のFacebookの場所を使用して、近くの場所の非常に小さなリストを追加したいと思っています。touch.facebook.com/#/places_friends.phpを簡単に使用できます。しかし、それはヘッダーや他のナビゲーションバーをロードして、メッセージ、イベントなどのバーを表示します。コンテンツが必要なだけです。

touch.facebook.com/#/places_friends.phpソースを見ると、かなり確信しています。ロードする必要があるのはdivの「コンテンツ」だけです。とにかく、私はphpに非常に慣れていないので、自分の考えをかなり確信しています。私がやろうとしているのはウェブスクレイピングと呼ばれています。

スタックオーバーフローについて理解し、認証などについて心配する必要がないようにするために、ログインページを読み込んで、少なくともスクレーパーを機能させることができるかどうかを確認したいと思います。動作するスクレイピングコードができたら、残りを処理できると確信しています。div内のすべてをロードしました。私はこれが以前に行われたのを見たことがあるので、それが可能であることを知っています。そして、touch.facebook.comにログインしようとしたときに表示されるものとまったく同じように見えますが、上部に青いfacebookロゴがなく、それが私がここで達成しようとしていることです。

これがログインページです。実際のログインボタンにログインするためのテキストボックスを含むdivをロードしようとしています。正しく行われていれば、Facebookのヘッダーバーがぼやけていないものが表示されるはずです。

私はもう試した

空白のページをロードするだけです。

http://simplehtmldom.sourceforge.net/も使ってみました

例の基本セレクターを次のように変更しました

私も試しました

それもうまくいきませんでした

php html web-scraping scrape

2010-09-15T07:24:09.537

問題タブ [scrape]

Reference