python - とにかく、数百のURLのリストからFacebookアカウントのリンクをスクレイピングすることはできますか?

翻译自：https://stackoverflow.com/questions/11849085 2012-08-07T15:22:36.060

186 次

インドのニュースメディアサイトに関連する 1500 を超える URL のリストがあります。大学のプロジェクトの一環として、いくつかの統計を行うことに興味がありました。

簡単に言えば、これらの Web サイトのうち、メインの Web ページに Facebook アカウントへのリンクがあるのはどれでしょうか? これを行うのは面倒な作業です (これまでに 25% を完了しました)。そのため、プログラムを使用してこれらの Web サイトをスクレイピングする可能性について、Web を介して調査してきました。私は、scraperwiki のスクレイパーと、importxml主に Google Docs の機能を見てきましたが、これまでのところ、どちらもあまり成功していません。

特定のサイトの Google ドキュメントで次の機能を試しました。

=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")

全体として、各 Web サイトの構造が大きく異なる場合、特定の href リンクについてのみ、特定の Web サイト (またはリスト) をスキャンすることが可能かどうか (およびその方法) を尋ねたいと思いますか?

この件に関してご協力いただきありがとうございます。

マーク

python - とにかく、数百のURLのリストからFacebookアカウントのリンクをスクレイピングすることはできますか?

0 に答える 0

Related

Reference