r - Rの自動機能によるWebページとそのリンクのWebスクレイピングに助けが必要

Question

ニュースで報告された超常現象のデータを抽出して、出現の空間と時間のデータを分析して相関関係を調べることに興味があります。このプロジェクトは、Web スクレイピング、テキスト抽出、空間および時間の相関分析を学び、使用するためのものです。ですから、このトピックを決定したことをお許しください。何か面白くてやりがいのある仕事をしたかったのです。最初に、このウェブサイトには、報告された超常現象の発生のコレクションがいくつかあることがわかりました.2009年、2010年、2011年、2012年のコレクションがあります。 2009年のリンクはこのようにhttp://paranormal.about.com/od/paranormalgeneralinfo/tp/2009-paranormal-activity.htm

各ページで、彼らはこの内部構造のような見出しの下にストーリーを集めました Paranormal Activity, Posted 03-14-09 これらの見出しの行にはそれぞれ2つのページがあります..このリンクのように行きますhttp://paranormal.about.com/ od/paranormalgeneralinfo/a/news_090314n.htm

これらの各ページには、さまざまな見出しで収集された実際の報告された記事と、それらの記事への実際の Web サイトへのリンクがあります。報告されたテキストを収集し、幽霊、悪魔、UFO などの超常現象の種類と、事件の日時と場所に関する情報を抽出することに興味があります。このデータを空間的および時間的相関について分析したいと考えています。UFO やゴーストが実在する場合、それらの動きには、空間または時間における何らかの動作と相関関係がなければなりません。これは物語のロングショットです...

上記のページからテキストフォームをスクレイピングするのに助けが必要です。ここでは、1 つのページをたどるコードと、必要な最後の最終テキストまでのリンクを書き留めました。最終ページからきれいなテキストを取得するためのより良い効率的な方法があることを誰かに教えてもらえますか。また、2009年全体の全10ページをフォローすることにより、テキスト収集の自動化。

library(XML)
#source of paranormal news from about.com
#first page to start
#2009 -  http://paranormal.about.com/od/paranormalgeneralinfo/tp/2009-paranormal-activity.htm
pn.url<-"http://paranormal.about.com/od/paranormalgeneralinfo/tp/2009-paranormal-activity.htm"
pn.html<-htmlTreeParse(pn.url,useInternalNodes=T)
pn.h3=xpathSApply(pn.html,"//h3",xmlValue)
#extracting the links of the headlines to follow to the story
pn.h3.links=xpathSApply(pn.html,"//h3/a/@href")
#Extracted the links of the Internal structure to follow ...
#Paranormal Activity, Posted 01-03-09 (following this head line)
#http://paranormal.about.com/od/paranormalgeneralinfo/a/news_090314n.htm
pn.l1.url<-pn.h3.links[1]
pn.l1.html<-htmlTreeParse(pn.l1.url,useInternalNodes=T)
pn.l1.links=xpathSApply(pn.l1.html,"//p/a/@href")
#Extracted the links of the Internal structure to follow ...
#British couple has 'black-and-white-twins' twice (following this head line)
#http://www.msnbc.msn.com/id/28471626/
pn.l1.f1.url=pn.l1.links[7]
pn.l1.f1.html=htmlTreeParse(pn.l1.f1.url,useInternalNodes=T)
pn.l1.f1.text=xpathSApply(pn.l1.f1.html,"//text()[not(ancestor::script)][not(ancestor::style)]",xmlValue)

私の投稿を読んでくれて、私を助けてくれてありがとう。このプロジェクト全体で私を指導したい専門家にとって、私は非常に充実しています。

よろしくサティシュ

score 0 · Accepted Answer

ScrapyおよびBeautifulSoupライブラリを使用してみてください。それらは Python ベースであるにも関わらず、ドメインの廃棄に最適であると考えられています。コマンドラインインターフェイスを使用して両方を接続できます。R と Python の接続の詳細については、こちらを参照してください。

r - Rの自動機能によるWebページとそのリンクのWebスクレイピングに助けが必要

1 に答える 1

Related

Reference