“scraper”の関連問題_Stack Overflow日本語サイト

0 投票する

5 に答える

7613 参照

python - アンカータグ間のテキストを抽出するには?

HTML ページからアーティストの名前を抽出する必要があります。ページのスニペットは次のとおりです。

私はこれを試しましたが、仕事をしていません。

私はどこを台無しにしていますか？

2012-11-06T08:52:55.757

0 投票する

3 に答える

108 参照

python - Webページにスクレーパーがある場合、そのスクレーパーを余分なページで動作させることは可能ですか?

私のコードは、ファイルの各 URL から 1 つのページのみを開きます。さらに多くのページがある場合もあります。その場合、次のページのパターンは &page=x になります。

ここに私が話しているページがあります：

http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track http://www.last.fm/user/TheBladeRunner_/library/tags?tag=long+track&page=7

python beautifulsoup scraper

2012-11-12T17:40:53.057

0 投票する

1 に答える

50 参照

ruby - Xpath コンテンツが保存されない

まだ発見していないコードのばかげたバグかもしれませんが、かなり時間がかかりました: nokogiri と xpath を使用して Web サイトを解析し、xpath の内容を .csv ファイルに保存しようとすると、 csv ファイルに空のセルがあります。

基本的に、xpath のコンテンツが空を返すか、コードが Web サイトを正しく読み取れません。

これは私がやっていることです：

ここで何が欠けていますか？

ruby xpath nokogiri scraper

2012-11-13T10:51:50.537

0 投票する

2 に答える

245 参照

regex - 文字列の perl 正規表現

street 、 city 、 state 、 zip を抽出する必要がある場所から文字列があります。

文字列は次のようになります

現在、分割関数を使用して配列を取得し、それらの値を使用して作業を行っていますが、単一の正規表現でタスクを実行したいと考えています。ありがとう

regex perl string-parsing scraper

2012-11-13T12:02:12.457

0 投票する

0 に答える

48 参照

facebook - 「URL のリンティング中に内部エラーが発生しました」 - キリル文字のドメインが原因ですか?

重複の可能性:
キリル文字で URL を共有中にエラーが発生しました

Facebook デバッガーは、「URL のリンティング中に内部エラーが発生しました」というメッセージを表示します: http://конкурсконцепций.рф (これはキリル文字のドメインゾーン 'рф' にあり、正規の URL 形式はhttp://xn--e1agdbaatcfdnhn0a4cc.xn です) --p1ai/ .

どこに問題があるのか知りたいです。キリル文字のドメイン名か、サイトのコンテンツか、それ以外か?

PS デバッガへのリンク

facebook scraper

2012-12-05T19:01:18.010

0 投票する

7 に答える

3644 参照