問題タブ [scrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - PHPファイル名を空にすることはできません単純なhtml dom行70でそれをバイパスする方法
1つのサイトをスクレイピングしていて、10000のコンテンツのうち4000に到達できたので、停止して言うでしょう
PHP 警告: file_get_contents(): ファイル名を /Users...simple_html_dom.php 行 70 で空にすることはできません PHP 致命的なエラー: 非オブジェクトでのメンバー関数 find() の呼び出し
simple_html_dom.php の 70 行目
空のファイル名をバイパスしてプロセスを完了する方法を知りたいですか?
php - PHP-データベースからURLを渡すときにファイル取得コンテンツが機能しない場合は正常に機能する
file_get_contentsを使用してWebページのコンテンツを取得しようとしています
シナリオ1:
テキストフィールドから直接単一のURLを渡すと、完全に機能します。
シナリオ2:
テキスト領域で複数のURLを取得し、それらをMysqlデータベースに保存する場合。次に、forループを実行して、シナリオ1と同じコードスニペットにURLを渡し、このエラーを返します。
使用されているデータ型に問題があると感じました。それで、最初はvarcharでしたが、テキストに変更しました。
ストリップスペースも試してみました。URLをエコーアウトすると、文字やスペースを追加せずにそのまま印刷されます。
また、ループ内にあるため、一度に複数のURLが渡されることに問題があるとは思いません。シナリオ1を試してみると、すべてのURLが個別に正常に機能します。
助けてください。私は私の知恵の終わりにいます。
php - POSTデータを必要とするPHPを介してWebサイトをスクレイピングするにはどうすればよいですか?
POSTデータを取り込んで正しいページを返すWebサイトをスクレイピングしようとしています(POSTでは15の結果が返され、POSTデータではすべての結果が返されます)。
現在、私のコードは次のようになっています。
投稿フィールドを「XXXXXX」で満たされたスペースに配置する必要があることはわかっていますが、投稿フィールド/値を掘り下げる場所と、そこに渡す変数にそれらを構造化する方法がわかりません。
どんな助けでも大歓迎です!
php - .swf URI の HTML ソース コードの取得
.swf URI から HTML ソース コードを取得できるかどうか疑問に思っていました。
たとえば、次のような Web ページです。
http://media.flixfacts.com/360view/acer_uk/002/acer_uk-002-en.swf
curl を使用してこのページをスクレイピングすると、html ソースではなく swf ソースが返されます。
何か案は?
image - 拡張子のない画像をスクレイピングするにはどうすればよいですか?
保存できるようにスクレイピングできない画像に出くわすことがあります。これの例は次のとおりです。
https://s3.amazonaws.com/plumdistrict.com-production/perks/12321/image/original.?1325898487
Internet Explorer から URL にアクセスすると画像が表示されますが、以下のコードから取得しようとすると、「System.Net.WebException The remote server returned an error: (403) Forbidden」というエラー メッセージが表示されます。 :
この画像を取得する方法についてのアイデアはありますか?
編集:
拡張子を持つ画像を保存することができます。たとえば、次の画像を問題なくスクレイピングできます。
https://s3.amazonaws.com/plumdistrict.com-production/perks/12659/image/original.jpg?1326828951
c# - C#リンクのwebBrowserコントロールをスクレイプできますか?
私は現在C#とその楽しみを学んでいますが、障害にぶつかっています。
Webブラウザコントロール内のWebページをスクレイプして情報を取得できるプログラムがあります。
これまでのところ、HTMLを取得できます
そしてテキスト
私はこのようなリンクをこすって表示しようとしました
ただし、代わりに、フォームのリッチテキストボックスにこれが表示されます
現在のWebページからリンクのリストを取得してテキストボックスに表示する方法を知っていますか?
クリスに感謝します。
facebook - 私のウェブサイトのいいねボタンが正しい情報を使用していません
私のチームが行っている募金活動のために、ブロガーを使用してブログをデザインしています。私は自分のブログ「solemateswalk.blogspot.com」に向けたgodaddy「solematesforlife.org」を通じてドメインを購入しました。
いいねボタンを最初にインストールしたとき、Facebook で使用されるリソースを指定する必要があることに気づきませんでした。自分がやったことを理解したとき、ヘッダーに適切なメタタグをインストールし、デバッグツールを使用してブログを再スクレイピングしようとしました。
私が抱えている問題は、デバッグを介して URL を実行すると、新しい「画像、URL、説明、およびタイトル」が検出されますが、人々が私のいいねボタンをクリックしたときに使用する「オブジェクト プロパティ」をわざわざ更新しないことです。 .
これは大きな問題です。なぜなら、新しい画像が置き換えられず、説明が追加されていない場合は、いいねリンクをまとめて削除したいからです..
私はこの件について読んで読んで、これがどのように機能するかについてかなりよく理解していると思いますが、私が Java プログラマーであるとは言えません。
前もって感謝します
java - JAVA を使用して Web サイトの HTML を解析する
単純な Web サイトを解析し、その Web サイトから情報をスクレイピングしたいと考えています。
DocumentBuilderFactory を使用して XML ファイルを解析していましたが、html ファイルに対して同じことを試みましたが、常に無限ループに陥っていました。
問題は何ですか?または、特定の html タグの Web サイトからデータをスクレイピングする簡単な方法はありますか?
bash - ウェブページが更新されたかどうかを確認する簡単なスクリプト
ウェブサイトで待っている情報がいくつかあります。毎時間チェックしたくありません。これを実行して、探しているキーワードでこの Web サイトが更新されたかどうかを通知するスクリプトが必要です。