問題タブ [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHP:Webサイトのソースページからコンテンツを抽出したりデータセットを取得したりする方法
phpを使用してWebサイトからソースコードのコンテンツを取得する方法を知りたいです。http://simplehtmldom.sourceforge.net/を使用してみましたが、PHPでHTML / XMLをどのように解析および処理しますか?私はまだソースコードから情報を取得しようとするのに苦労しています。ご覧のとおり、ソースコードのメインページには、年と書かれた本の数を含む著者のリンクリストが含まれています。
ジョン・スミスをクリックすると、ジョン・スミスが書いた本のリストが開きます。
「最高の本」という本の1つをクリックすると、その本のタイトルと、その本の全貌が表示されます。
著者名とその年、本のリスト、本の内容をすべて把握できるようにしたいと思います。実際にはデータセットとして。誰かが私を助けたり、これを実現するためのphpのコードサンプルを見せてもらえますか?著者の名前、生年月日、作成した本、本のタイトル、カテゴリ、本の内容などの情報のデータベースを作成したいと思います。
python - HTML からのデータの抽出
ウェブサイトをスクレイピングしようとしています。ウェブサイトのコンテンツを文字列/ファイルに取得できました。
ここで、次のような特定の行を検索したいと思います。
キー 1 は Web サイト内に 1 つだけであることが保証されており、値 1 を取得する必要があります。これを行う最善の方法は何ですか。正規表現を使用している場合は、どのように見えるべきか教えていただけますか。私は正規表現をあまり使用していません。
よろしく、AMM
php - PHPスクレープHTML間タグ
内部からのみHTMLコンテンツを取得する方法を見つけるのに問題があります
HP5のタグ。次のドキュメントの例を取り上げ、2つ(またはそれ以上のプレタグ領域、その動的)を取り、それを配列に押し込みます。
別のサーバー上のhtmlファイルのpreタグ間の領域を配列に押し込むにはどうすればよいですか。
image - Facebookの「いいね!」が間違った商品画像の使用を主張するのはなぜですか...?
私のウェブサイトhttp://www.joaniesgifts.co.ukには、製品ページに「いいね」ボタンが含まれています。しかし、ユーザーがページを気に入ったときに、特定の製品ページで不適切な画像が使用されていることがわかりました。このページは一例です。
これは元の不適切な設定が原因であった可能性があると思いますが、現在は修正されています。ただし、問題は残ります...
先に進む必要があるのは、上記の製品ページで Facebook URL リンターを使用すると、次のエラーが表示されることだけです。
ドメイン「www.joaniesgifts.co.uk」が許可されていないため、タイプ「213689662010141:product」の URL「http://www.joaniesgifts.co.uk/terramundi-money-pot-holiday-fund」のオブジェクトは無効です指定されたオブジェクト タイプを所有するアプリケーション ID '213689662010141' の場合。このアプリケーションの所有者である場合は、developers.facebook.com/apps/213689662010141 で構成済みの「サイト ドメイン」を確認できます。(サイトのドメインを確認しました)
間違った画像が表示されていることを除けば、他のすべては問題ないように見えます。ただし、Raw Open Graph Document Information の下には正しいリンクがあります。
次にGraph API - http://graph.facebook.com/10150450766583352をクリックすると、間違った画像がリンクされていることが再び表示されます!
他に何ができますか?
また: Graph API は、ほんの数分前にスクレイプした後に誤った画像を表示します。
php - サイトからスクレイピングした平文の一部を削除するにはどうすればよいですか?
これは、名前とURLをスクレイピングするために使用したコードですが、すべての名前は~
. ~
その部分を削除したいと思います。使ってみましstr_replace
たが、見た目からして合わないようです。(これもテストして同じ結果)
現在の結果の例:
c# - C# で Web ページからテーブルをスクレイプする
Webページのhtmlテーブルを変数にスクレイピングする関数を構築するための最良のアプローチは何ですか.
いくつかの一意の識別子 (テーブル ID など) を渡すことができるようにしたいのですが、すべてのデータが DataTable のようなものに返されます。
php - URL Webスクレイプの次のページを取得しようとすると、phpがsimplehtmldomからエラーを取得します
トピックの次のページを取得しようとしていますが、エラーが発生します。その年齢のトピック内の次のページをスクレイピングできるように、そのエラーを回避する方法はありますか? (次のページは 20 で、その後は 40 など) エラーは以下に示されています。誰かが私にコードを掲載するように要求することは確かですが、どれだけ、またはどのコードを掲載すればよいかわかりません。
http://blah.com/quotes/topic/age 20 1 1http://blah.com/quotes/topic/age/20
アップデート***
これは870-885の間の線です
c# - WatInを使用してページ上のハイパーリンクをスクレイプするにはどうすればよいですか?
WatInを使用してハイパーリンク(リンク先のURL)のリストを収集しようとしています。私は使ってみました:
リッチテキストボックス内のすべてのハイパーリンクを一覧表示しようとしていますが、上記でハイパーリンク名が返されたため、「リンク」が何度も表示されました。
さらに、「webpage.php?id =」を含み、その後に一意の番号が付いたURL/リンクのみをリストする必要があります。「webpage.php?id =」を含むものだけでフィルタリングされたスクレイプされたURLを返すにはどうすればよいですか?
更新:これは、他のサイトを使用して機能する更新されたテストですが、必要なサイトでは機能しません。以下のコードは機能します。
}
コードは正しいようですが、特定のURLとの相互作用とハイパーリンクが問題のようです。私がフォローしているサイトとハイパーリンクには機密情報が含まれているため、省略されています。
自分のサイトのメインページhttp://website.comを使用するとスクリプトが実行されるため、http://website.com/data.php?search =%22%22&catに送信する一意のページに関して問題が発生しています。 = 0 URLに.phpが含まれている可能性がありますか?また、役立つ場合は、以下に示すようにURLがページに保存されます。
更新と解決策:何らかの理由で、Url.Containsメソッドを使用しようとすると問題が発生するようです。私がやったことは、すべてのスクレイプされたURLをリストに保存し、必要に応じてリストを1行ずつテストして、必要なURLを返すことです。手伝ってくれてどうもありがとう。
python - Scrapy SgmlLinkExtractor 任意の URL を追加する
SgmlLinkExtractor に URL を追加するにはどうすればよいですか? つまり、コールバックを実行する任意の URL を追加するにはどうすればよいですか?
例として dirbot を使用して詳しく説明するには: https://github.com/scrapy/dirbot/blob/master/dirbot/spiders/googledir.py
parse_categoryは、SgmlLinkExtractor に一致するすべてのものにのみアクセスします SgmlLinkExtractor(allow='directory.google.com/[AZ][a-zA-Z_/]+$')