1

TwitterデータセットにURLを含むツイートを特定したいと思います。たとえば、「http://」の記号を使用します。

Rでそれを進める方法は?たとえば、ツイートのテキストは

  "@RainxDog @twitpic Please HELP #OccupyWallStreet and RT this video: http://t.co/vjwNR7TC"

  "@degamuna Please HELP #OccupyWallStreet and RT this video: http://t.co/vjwNR7TC"
4

3 に答える 3

3

grepを使用できます

if(length(grep("http://",data))>0){
 data[grep("http://",data)]
}
于 2012-07-11T15:06:54.970 に答える
2

あなたの比較的単純な質問は、実際には非常にトリッキーな何かを隠します。2つの例では、URLは次のとおりです。

  1. 次の形式でした:http://t.cp/-bit.lyリンクはどうですか?どうhttpsですか?
  2. URLはツイートの最後に表示されました。ツイートの途中または先頭のURLはどうですか?

サンプルツイートのセットを作成し、正規表現が機能することを確認します。

基本的に、正規表現が必要です。注目すべきStackoverflowの質問は次のとおりです。

  1. JavaScript正規表現を使用してツイートからURLを抽出するにはどうすればよいですか?
  2. Pythonを使用して文字列からURLを抽出する最もクリーンな方法は何ですか?

これらの質問にはリンクも含まれています。

于 2012-07-11T15:39:56.307 に答える
0

Twitterエンティティを使用してツイートのすべてのURLを取得できます。REST呼び出しを行うときは、必ず以下を含めてください。

&include_entities=true

これにより、エンティティと呼ばれるJSONまたはXMLのセクションが表示されます。urlsという子ノードがあります。

返されるものの例を次に示します。

"text": "Twitter for Mac is now easier and faster, and you can open multiple windows at once http://t.co/0JG5Mcq",

    "entities": {

      "media": [

      ],

      "urls": [

        {

          "url": "http://t.co/0JG5Mcq",

          "display_url": "blog.twitter.com/2011/05/twitte…",

          "expanded_url": "http://blog.twitter.com/2011/05/twitter-for-mac-update.html",

          "indices": [

            84,

            103

          ]

        }

      ],

      "user_mentions": [

      ],

      "hashtags": [

      ]

    }

したがって、エンティティ-> URLを探して、ツイートに外部サイトへのリンクが含まれているかどうかを確認します。

于 2012-07-11T16:46:02.693 に答える