問題タブ [scraper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
5 に答える
7613 参照

python - アンカータグ間のテキストを抽出するには?

HTML ページからアーティストの名前を抽出する必要があります。ページのスニペットは次のとおりです。

私はこれを試しましたが、仕事をしていません。

私はどこを台無しにしていますか?

0 投票する
3 に答える
108 参照

python - Webページにスクレーパーがある場合、そのスクレーパーを余分なページで動作させることは可能ですか?

私のコードは、ファイルの各 URL から 1 つのページのみを開きます。さらに多くのページがある場合もあります。その場合、次のページのパターンは &page=x になります。

ここに私が話しているページがあります:

http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track&page=7

0 投票する
1 に答える
50 参照

ruby - Xpath コンテンツが保存されない

まだ発見していないコードのばかげたバグかもしれませんが、かなり時間がかかりました: nokogiri と xpath を使用して Web サイトを解析し、xpath の内容を .csv ファイルに保存しようとすると、 csv ファイルに空のセルがあります。

基本的に、xpath のコンテンツが空を返すか、コードが Web サイトを正しく読み取れません。

これは私がやっていることです:

ここで何が欠けていますか?

0 投票する
2 に答える
245 参照

regex - 文字列の perl 正規表現

street 、 city 、 state 、 zip を抽出する必要がある場所から文字列があります。

文字列は次のようになります

現在、分割関数を使用して配列を取得し、それらの値を使用して作業を行っていますが、単一の正規表現でタスクを実行したいと考えています。ありがとう

0 投票する
0 に答える
48 参照

facebook - 「URL のリンティング中に内部エラーが発生しました」 - キリル文字のドメインが原因ですか?

重複の可能性:
キリル文字で URL を共有中にエラーが発生しました

Facebook デバッガーは、「URL のリンティング中に内部エラーが発生しました」という メッセージを表示します: http://конкурсконцепций.рф (これはキリル文字のドメイン ゾーン 'рф' にあり、正規の URL 形式はhttp://xn--e1agdbaatcfdnhn0a4cc.xn です) --p1ai/ .

どこに問題があるのか​​知りたいです。キリル文字のドメイン名か、サイトのコンテンツか、それ以外か?

PS デバッガへのリンク

0 投票する
7 に答える
3644 参照

php - PHPコードによるPython出力の印刷

私は1つのサイトをスクレイピングするスクレーパーを持っています(Pythonで書かれています)。サイトをスクレイピングしているときに、CSV に書き込もうとしている行を出力します。Scraper は Python で書かれており、PHP コードを介して実行したいと考えています。私の質問は

Pythonコードによって印刷されている各行を印刷するにはどうすればよいですか。

私は exec 関数を使用しましたが、それは私の用途ではなく、すべてのプログラムを実行した後に出力を提供します。そう;

PHP経由で実行されている間にPython出力を印刷することは可能ですか?

0 投票する
2 に答える
127 参照

ruby - テーブル セル内の最後の単語を取得する

RubyとNokogiriでテーブルからデータをスクレイピングしたい。

要素はたくさんありますが、<td>要素の後のテキストである国だけが必要です<br>。問題は、<td>要素が異なることです。時には国だけではありません。

例えば:

</td>国は常に最後の要素であるため、終了タグの前の要素に対処したいと思います。

どうやってやるの?

0 投票する
2 に答える
3032 参照

python - タグインタグの美麗スープチェック

Beautiful Soup 4 を使用してページをスクレイピングしています。不要なテキスト ブロックがあります。

特徴的なのは、タグが付いていることです。私はすでに findall() を使用してすべてを取得しました

タグ。だから今、私は次のようなループを持っています:

残念ながらbs4には「hasChildTag」機能がありません

0 投票する
3 に答える
340 参照

forms - Web::Xpath を使用したスクレイプは、あまりにも多くの行を返します

CSSスタイルなしで、いくつかの厄介なネストされたテーブルでWeb::Scrapeを使用します。XPATH を学ばなければならず、つまづきます。

更新:いくつかの XPATH の問題を修正しました。属性に関する質問が 1 つだけ残っています。

これにより、次のように出力されます。

だから私は近づいています。属性<option>を持つを指定するにはどうすればよいですか?selected

更新:解決しました。Xpathは//*[@id="cfg-surface-detail"]/center/table/tr/td[2]/select/option[@selected]

これは役に立ちました: http://www.w3schools.com/xpath/xpath_syntax.asp

0 投票する
1 に答える
587 参照

facebook - Facebook スクレーパーがメタデータの読み取りを停止する

重複の可能性:
Facebook は私のサイトへのリンクを共有しません

Facebook に貼り付けたときに画像が表示されない 2 つの Web サイトがあります。そこで、Facebook オブジェクト デバッガーに移動し、スクレイパーが表示するものとビュー ソースが表示するものを比較しました。

http://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fvspwebandvideo.com%2F

私の失敗したページは両方とも次の行で死にます:

エラーが発生しないため、その時点で読み取りが停止するだけで、何を試したらよいかわかりません。

何か案は?HTMLエンティティを持つタイトルタグが効果があるかどうか疑問に思いました。

paxtonsgrill.com も失敗しますが、allaroundloveland.com は機能します。3 つともワードプレス サイトですが、私は PHP 開発者なので、何が問題なのかがわかれば、おそらく修正できます。

ありがとう