問題タブ [scraper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - アンカータグ間のテキストを抽出するには?
HTML ページからアーティストの名前を抽出する必要があります。ページのスニペットは次のとおりです。
私はこれを試しましたが、仕事をしていません。
私はどこを台無しにしていますか?
python - Webページにスクレーパーがある場合、そのスクレーパーを余分なページで動作させることは可能ですか?
私のコードは、ファイルの各 URL から 1 つのページのみを開きます。さらに多くのページがある場合もあります。その場合、次のページのパターンは &page=x になります。
ここに私が話しているページがあります:
http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track&page=7
ruby - Xpath コンテンツが保存されない
まだ発見していないコードのばかげたバグかもしれませんが、かなり時間がかかりました: nokogiri と xpath を使用して Web サイトを解析し、xpath の内容を .csv ファイルに保存しようとすると、 csv ファイルに空のセルがあります。
基本的に、xpath のコンテンツが空を返すか、コードが Web サイトを正しく読み取れません。
これは私がやっていることです:
ここで何が欠けていますか?
regex - 文字列の perl 正規表現
street 、 city 、 state 、 zip を抽出する必要がある場所から文字列があります。
文字列は次のようになります
現在、分割関数を使用して配列を取得し、それらの値を使用して作業を行っていますが、単一の正規表現でタスクを実行したいと考えています。ありがとう
facebook - 「URL のリンティング中に内部エラーが発生しました」 - キリル文字のドメインが原因ですか?
重複の可能性:
キリル文字で URL を共有中にエラーが発生しました
Facebook デバッガーは、「URL のリンティング中に内部エラーが発生しました」という メッセージを表示します: http://конкурсконцепций.рф (これはキリル文字のドメイン ゾーン 'рф' にあり、正規の URL 形式はhttp://xn--e1agdbaatcfdnhn0a4cc.xn です) --p1ai/ .
どこに問題があるのか知りたいです。キリル文字のドメイン名か、サイトのコンテンツか、それ以外か?
PS デバッガへのリンク
php - PHPコードによるPython出力の印刷
私は1つのサイトをスクレイピングするスクレーパーを持っています(Pythonで書かれています)。サイトをスクレイピングしているときに、CSV に書き込もうとしている行を出力します。Scraper は Python で書かれており、PHP コードを介して実行したいと考えています。私の質問は
Pythonコードによって印刷されている各行を印刷するにはどうすればよいですか。
私は exec 関数を使用しましたが、それは私の用途ではなく、すべてのプログラムを実行した後に出力を提供します。そう;
PHP経由で実行されている間にPython出力を印刷することは可能ですか?
ruby - テーブル セル内の最後の単語を取得する
RubyとNokogiriでテーブルからデータをスクレイピングしたい。
要素はたくさんありますが、<td>
要素の後のテキストである国だけが必要です<br>
。問題は、<td>
要素が異なることです。時には国だけではありません。
例えば:
</td>
国は常に最後の要素であるため、終了タグの前の要素に対処したいと思います。
どうやってやるの?
python - タグインタグの美麗スープチェック
Beautiful Soup 4 を使用してページをスクレイピングしています。不要なテキスト ブロックがあります。
特徴的なのは、タグが付いていることです。私はすでに findall() を使用してすべてを取得しました
タグ。だから今、私は次のようなループを持っています:
残念ながらbs4には「hasChildTag」機能がありません
forms - Web::Xpath を使用したスクレイプは、あまりにも多くの行を返します
CSSスタイルなしで、いくつかの厄介なネストされたテーブルでWeb::Scrapeを使用します。XPATH を学ばなければならず、つまづきます。
更新:いくつかの XPATH の問題を修正しました。属性に関する質問が 1 つだけ残っています。
これにより、次のように出力されます。
だから私は近づいています。属性<option>
を持つを指定するにはどうすればよいですか?selected
更新:解決しました。Xpathは//*[@id="cfg-surface-detail"]/center/table/tr/td[2]/select/option[@selected]
これは役に立ちました: http://www.w3schools.com/xpath/xpath_syntax.asp
facebook - Facebook スクレーパーがメタデータの読み取りを停止する
重複の可能性:
Facebook は私のサイトへのリンクを共有しません
Facebook に貼り付けたときに画像が表示されない 2 つの Web サイトがあります。そこで、Facebook オブジェクト デバッガーに移動し、スクレイパーが表示するものとビュー ソースが表示するものを比較しました。
http://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fvspwebandvideo.com%2F
私の失敗したページは両方とも次の行で死にます:
エラーが発生しないため、その時点で読み取りが停止するだけで、何を試したらよいかわかりません。
何か案は?HTMLエンティティを持つタイトルタグが効果があるかどうか疑問に思いました。
paxtonsgrill.com も失敗しますが、allaroundloveland.com は機能します。3 つともワードプレス サイトですが、私は PHP 開発者なので、何が問題なのかがわかれば、おそらく修正できます。
ありがとう