“scrape”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1129 参照

php - PHP：Webサイトのソースページからコンテンツを抽出したりデータセットを取得したりする方法

phpを使用してWebサイトからソースコードのコンテンツを取得する方法を知りたいです。http://simplehtmldom.sourceforge.net/を使用してみましたが、PHPでHTML / XMLをどのように解析および処理しますか？私はまだソースコードから情報を取得しようとするのに苦労しています。ご覧のとおり、ソースコードのメインページには、年と書かれた本の数を含む著者のリンクリストが含まれています。

ジョン・スミスをクリックすると、ジョン・スミスが書いた本のリストが開きます。

「最高の本」という本の1つをクリックすると、その本のタイトルと、その本の全貌が表示されます。

著者名とその年、本のリスト、本の内容をすべて把握できるようにしたいと思います。実際にはデータセットとして。誰かが私を助けたり、これを実現するためのphpのコードサンプルを見せてもらえますか？著者の名前、生年月日、作成した本、本のタイトル、カテゴリ、本の内容などの情報のデータベースを作成したいと思います。

2011-10-25T04:13:18.577

0 投票する

4 に答える

356 参照

python - HTML からのデータの抽出

ウェブサイトをスクレイピングしようとしています。ウェブサイトのコンテンツを文字列/ファイルに取得できました。

ここで、次のような特定の行を検索したいと思います。

キー 1 は Web サイト内に 1 つだけであることが保証されており、値 1 を取得する必要があります。これを行う最善の方法は何ですか。正規表現を使用している場合は、どのように見えるべきか教えていただけますか。私は正規表現をあまり使用していません。

よろしく、AMM

python regex scrape

2011-11-06T01:01:29.107

0 投票する

3 に答える

1409 参照

php - PHPスクレープHTML間

タグ

内部からのみHTMLコンテンツを取得する方法を見つけるのに問題があります

HP5のタグ。

次のドキュメントの例を取り上げ、2つ（またはそれ以上のプレタグ領域、その動的）を取り、それを配列に押し込みます。

別のサーバー上のhtmlファイルのpreタグ間の領域を配列に押し込むにはどうすればよいですか。

php html screen-scraping scrape pre

2011-11-09T03:20:12.743

0 投票する

1 に答える

855 参照

image - Facebookの「いいね！」が間違った商品画像の使用を主張するのはなぜですか...?

私のウェブサイトhttp://www.joaniesgifts.co.ukには、製品ページに「いいね」ボタンが含まれています。しかし、ユーザーがページを気に入ったときに、特定の製品ページで不適切な画像が使用されていることがわかりました。このページは一例です。

これは元の不適切な設定が原因であった可能性があると思いますが、現在は修正されています。ただし、問題は残ります...

先に進む必要があるのは、上記の製品ページで Facebook URL リンターを使用すると、次のエラーが表示されることだけです。

ドメイン「www.joaniesgifts.co.uk」が許可されていないため、タイプ「213689662010141:product」の URL「http://www.joaniesgifts.co.uk/terramundi-money-pot-holiday-fund」のオブジェクトは無効です指定されたオブジェクトタイプを所有するアプリケーション ID '213689662010141' の場合。このアプリケーションの所有者である場合は、developers.facebook.com/apps/213689662010141 で構成済みの「サイトドメイン」を確認できます。(サイトのドメインを確認しました)

間違った画像が表示されていることを除けば、他のすべては問題ないように見えます。ただし、Raw Open Graph Document Information の下には正しいリンクがあります。

次にGraph API - http://graph.facebook.com/10150450766583352をクリックすると、間違った画像がリンクされていることが再び表示されます!

他に何ができますか？

また: Graph API は、ほんの数分前にスクレイプした後に誤った画像を表示します。

image facebook caching facebook-like scrape

2011-11-11T18:54:08.323

0 投票する

1 に答える

87 参照

php - サイトからスクレイピングした平文の一部を削除するにはどうすればよいですか?

これは、名前とURLをスクレイピングするために使用したコードですが、すべての名前は~. ~その部分を削除したいと思います。使ってみましstr_replaceたが、見た目からして合わないようです。（これもテストして同じ結果）

現在の結果の例:

php string replace scrape

2011-11-12T08:48:36.230

0 投票する

2 に答える

687 参照

php - PHP内部をスクレイピングする方法
simplehtmldomを使用していますか？

php list loops foreach scrape

2011-11-15T09:45:30.367

0 投票する

2 に答える

8739 参照

c# - C# で Web ページからテーブルをスクレイプする

Webページのhtmlテーブルを変数にスクレイピングする関数を構築するための最良のアプローチは何ですか.

いくつかの一意の識別子 (テーブル ID など) を渡すことができるようにしたいのですが、すべてのデータが DataTable のようなものに返されます。

c#html datatable scrape

2011-11-15T21:55:02.820

0 投票する

1 に答える

1234 参照

php - URL Webスクレイプの次のページを取得しようとすると、phpがsimplehtmldomからエラーを取得します

トピックの次のページを取得しようとしていますが、エラーが発生します。その年齢のトピック内の次のページをスクレイピングできるように、そのエラーを回避する方法はありますか? (次のページは 20 で、その後は 40 など) エラーは以下に示されています。誰かが私にコードを掲載するように要求することは確かですが、どれだけ、またはどのコードを掲載すればよいかわかりません。

http://blah.com/quotes/topic/age 20 1 1http://blah.com/quotes/topic/age/20

アップデート***

これは870-885の間の線です

php url web-scraping scrape simple-html-dom

2011-11-16T06:34:16.597

0 投票する

2 に答える

1251 参照

c# - WatInを使用してページ上のハイパーリンクをスクレイプするにはどうすればよいですか？

WatInを使用してハイパーリンク（リンク先のURL）のリストを収集しようとしています。私は使ってみました：

リッチテキストボックス内のすべてのハイパーリンクを一覧表示しようとしていますが、上記でハイパーリンク名が返されたため、「リンク」が何度も表示されました。

さらに、「webpage.php？id =」を含み、その後に一意の番号が付いたURL/リンクのみをリストする必要があります。「webpage.php？id =」を含むものだけでフィルタリングされたスクレイプされたURLを返すにはどうすればよいですか？

更新：これは、他のサイトを使用して機能する更新されたテストですが、必要なサイトでは機能しません。以下のコードは機能します。

}

コードは正しいようですが、特定のURLとの相互作用とハイパーリンクが問題のようです。私がフォローしているサイトとハイパーリンクには機密情報が含まれているため、省略されています。

自分のサイトのメインページhttp://website.comを使用するとスクリプトが実行されるため、http：//website.com/data.php？search =％22％22＆catに送信する一意のページに関して問題が発生しています。 = 0 URLに.phpが含まれている可能性がありますか？また、役立つ場合は、以下に示すようにURLがページに保存されます。

更新と解決策：何らかの理由で、Url.Containsメソッドを使用しようとすると問題が発生するようです。私がやったことは、すべてのスクレイプされたURLをリストに保存し、必要に応じてリストを1行ずつテストして、必要なURLを返すことです。手伝ってくれてどうもありがとう。

c#filter watin bots scrape

2011-11-18T04:52:28.333

0 投票する

2 に答える

435 参照

python - Scrapy SgmlLinkExtractor 任意の URL を追加する

SgmlLinkExtractor に URL を追加するにはどうすればよいですか? つまり、コールバックを実行する任意の URL を追加するにはどうすればよいですか?

例として dirbot を使用して詳しく説明するには: https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py

parse_categoryは、SgmlLinkExtractor に一致するすべてのものにのみアクセスします SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')

python scrapy scrape

2011-11-20T15:09:04.287

問題タブ [scrape]

php - PHP：Webサイトのソースページからコンテンツを抽出したりデータセットを取得したりする方法

python - HTML からのデータの抽出

php - PHPスクレープHTML間
タグ

image - Facebookの「いいね！」が間違った商品画像の使用を主張するのはなぜですか...?

php - サイトからスクレイピングした平文の一部を削除するにはどうすればよいですか?

php - PHP内部をスクレイピングする方法
simplehtmldomを使用していますか？

c# - C# で Web ページからテーブルをスクレイプする

php - URL Webスクレイプの次のページを取得しようとすると、phpがsimplehtmldomからエラーを取得します

c# - WatInを使用してページ上のハイパーリンクをスクレイプするにはどうすればよいですか？

python - Scrapy SgmlLinkExtractor 任意の URL を追加する

問題タブ [scrape]

Reference