Rを使用してGoogleScholar検索の最初の100件の結果(たとえば)を抽出したいと思います。誰かがそれを行う方法を知っていますか?
正確には、論文の名前、著者、引用数だけが必要です。
追伸これは合法ですか?
Rを使用してGoogleScholar検索の最初の100件の結果(たとえば)を抽出したいと思います。誰かがそれを行う方法を知っていますか?
正確には、論文の名前、著者、引用数だけが必要です。
追伸これは合法ですか?
更新されたbiobucket-postを検討してください:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-justにリンクされている、適応できる可能性のあるPythonおよびPerlスクレーパーがいくつかあります。.html
私はあなたの仕事の合法性について話すことはできませんが、あなたがこれについて行くことができるいくつかの方法があります。私はXPathに強いわけではありませんが、それが最善の方法かもしれません。XMLパッケージを使用してページのコンテンツを取得し、XPathを使用して必要な要素のデータを抽出できると思います。
たとえば、ブラウザにChromeを使用していますが、デベロッパーツールを使用してページを調べたところ、ページの構造が表示され、さまざまなタグ内にデータが「非表示」になっているため、 XPath。
XPathの使用例については、このリンクを確認してください。
HTHと幸運
RCurlを使用してページのHTMLコンテンツを確実に取得し、Btibert3によって提案されているようにRXMLを使用してそれらを解析できます。あなたが直面するかもしれない唯一の問題は、グーグルがあなたに「ロボット的な」方法でクエリをすることを許可しないということです。短期間にGoogleで200回のクエリを実行すると、結果が返されなくなります。たぶんそれはGoogleScholarとは違うかもしれませんが、私はそうは思わない...
解決策は最近ここに公開されました:
http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html