Rを使用してyammerデータをWebスクレイピングしたいのですが、そのためにはまずこのページにログインする必要があります(これは私が作成したアプリの認証です)。
https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg
このページにログインすると、yammer データを取得できますが、これはすべて、標準の yammer URL ( https://www.yammer.com/api/v1/messages/received.json )によってブラウザーにあります。
同様の質問を読み、提案を試みましたが、それでもこの問題を解決できません。
httr,RSelenium,rvest+Selector ガジェットを使ってみました。
ここでの最終目標は、Rですべてを行うことです(データの取得、クリーニング、感情分析...クリーニングと感情分析の部分は完了しましたが、現時点ではデータの取得部分は手動であり、Rから処理することで自動化したいと考えています)
1.httrを使って試す:
usinghttr<- GET("https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg",
authenticate("Username", "Password"))
対応する結果: 応答 [https://www.yammer.com/dialog/authenticate?client_id=iVGCK1tOhbZGS7zC8dPjg] Date: 2015-04-27 12:25 Status: 200 Content-Type: text/html; charset=utf-8 サイズ: 15.7 kB このページのコンテンツは、ログイン ページを開いたものの、認証されなかったことを示しています。
2.セレクターガジェット+rvestでお試し
この方法を使用してウィキペディアをスクレイピングしようとしましたが、セレクターガジェットが提供するhtmlタグを呼び出す前に認証が必要になるため、yammerに適用できませんでした。
3.RSeleniumを使ってみる
標準のブラウザとphantomjsを使用してこれを試しましたが、いくつかのエラーが発生しました
> startServer()
remDr <- remoteDriver$new()
remDr$open() [1] 「リモート サーバーに接続しています」 RCurl 呼び出しで未定義のエラーが発生しました。queryRD(paste0(serverURL, "/session"), "POST", qdata = toJSON(serverOpts)) のエラー:
> pJS <- phantom()
phantom() のエラー: PhantomJS バイナリが見つかりません。