解析の質問があります。文字列として保存されている文があります。各文の各単語を取得したいのですが、取得した単語をフィルタリングしたいと思います。たとえば、次のような文があるとします。
Hell0 3v3ryb0dy @ stackoverflow $people \implies queen$ は ~queen --> ~people. /#論理
私は次のことをします:
- 「H3ll0」をつかむ
- 3v3ryb0dyをつかむ
- @を捨てる
- 「$people」から「人」を取得
- 「\implies」から「implies」を取得
- 「queen$」から「queen」を取得
- 「等しい」をつかむ
- 「~queen」から「queen」をつかむ
- 捨てる -->
- 「~人」から「人」をつかむ
- '/#logic' から 'logic' を取得します
基本的に、英数字のみが必要であり、単語の前後に \ などの他の文字がある場合は、この他の文字を無視したいと考えています。
現在私はやっています:sentence.split(" ")
これは文から個々の単語を取得しますが、「$people」と「~people」を取得し、同じように扱いたい場合は異なる方法で扱います。
- どうすればこれを達成できますか?
- ここで正規表現が役に立ちますか?