段落からハッシュタグを抽出する関数に取り組もうとしています。基本的には # ( #cool
#life
#cars
#سيارات
)で始まる単語です。
正規表現の使用や使用など、いくつかのアプローチを試しましsplit()
たが、アラビア語、ロシア語などのユニコード文字を含めようとする場所がありません.
正常に動作するものを使用しようとしましsplit()
たが、任意の単語が含まれます。私の場合、,.%$]{}{)(..
15 文字を超えない単語の長さなどの検証を含めようとするなど、特殊文字を含む単語を含めることはできません。
私はこのアプローチを試しました -
def _strip_hash_tags(self, ):
"""tags should not be more than 15 characters"""
hash_tags = re.compile(r'(?i)(?<=\#)\w+')
return [i for i in hash_tags.findall(self.content) if len(i) < 15]
これは英語でのみ機能し、外国語では機能しません。なにか提案を?