私はこの質問がこことここで尋ねられたことを知っていますが、私がそれを試したときに小さな問題がありました:
x<- str_extract("Hello peopllz! My new home is #crazy gr8! #wow", "#\S+")
Error: '\S' is an unrecognized escape in character string starting "#\S"
正規表現を"#(.+) ?"
、に変更しました"#\\s"
が、ハッシュタグが抽出されませんでした。
次に、gsubの方法を試しました。
x<- gsub("[^#(.+) ?]","","Hello! #London is gr8. #Wow")
それは与えました:" # . #"
私が間違っているアイデアはありますか?ツイート内のすべてのハッシュタグのベクトル/リストとして出力したい(ハッシュなしで!)
編集:次の理由から、ツイートをトークン化しないことをお勧めします。1.プログラムの残りの部分でツイートをトークン化しない、2。大量のツイートを処理するようにスケーリングすると、非常にコストのかかる手順になります。