0

ツイッターからスクレイピングされたツイートのリストから、すべての@メンション、#ハッシュタグ、およびURL http ....を削除する方法を教えてください。

私は以下を使用して試しました(そして失敗しました):

find all [@].* and replace with blank
find all [#].* and replace with blank
find all [http].* and replace with blank

などなど...これにより、スクレイピングされた結果からほとんどすべてが完全に削除されます。

私はメモ帳が初めてで、すべての情報を整理しようとしています。

前もって感謝します

4

1 に答える 1

0

あなたの表現は広すぎます。これを試して:

(@|#|http)\S+

\Sまたは、正規表現のフレーバーによっては、次のように(空白以外で)書き出す必要がある場合があります。

(@|#|http)[^ ]+

もちろん、正規表現では、必要なものを正確に知ることがすべてであり、通常は途中で理解します。

于 2012-07-15T16:28:55.283 に答える