インドのニュース メディア サイトに関連する 1500 を超える URL のリストがあります。大学のプロジェクトの一環として、いくつかの統計を行うことに興味がありました。
簡単に言えば、これらの Web サイトのうち、メインの Web ページに Facebook アカウントへのリンクがあるのはどれでしょうか? これを行うのは面倒な作業です (これまでに 25% を完了しました)。そのため、プログラムを使用してこれらの Web サイトをスクレイピングする可能性について、Web を介して調査してきました。私は、scraperwiki のスクレイパーと、importxml
主に Google Docs の機能を見てきましたが、これまでのところ、どちらもあまり成功していません。
特定のサイトの Google ドキュメントで次の機能を試しました。
=ImportXML(A1, "//a[contains(@href, 'www.facebook.com')]")
全体として、各 Web サイトの構造が大きく異なる場合、特定の href リンクについてのみ、特定の Web サイト (またはリスト) をスキャンすることが可能かどうか (およびその方法) を尋ねたいと思いますか?
この件に関してご協力いただきありがとうございます。
マーク