python - PythonでUnicode（外国語用）の段落からハッシュタグを抽出する

翻译自：https://stackoverflow.com/questions/18250593 2013-08-15T10:13:30.630

815 次

段落からハッシュタグを抽出する関数に取り組もうとしています。基本的には # ( #cool #life #cars #سيارات)で始まる単語です。

正規表現の使用や使用など、いくつかのアプローチを試しましsplit()たが、アラビア語、ロシア語などのユニコード文字を含めようとする場所がありません.

正常に動作するものを使用しようとしましsplit()たが、任意の単語が含まれます。私の場合、,.%$]{}{)(..15 文字を超えない単語の長さなどの検証を含めようとするなど、特殊文字を含む単語を含めることはできません。

私はこのアプローチを試しました -

def _strip_hash_tags(self, ):
    """tags should not be more than 15 characters"""
    hash_tags = re.compile(r'(?i)(?<=\#)\w+')
    return [i for i in hash_tags.findall(self.content) if len(i) < 15]

これは英語でのみ機能し、外国語では機能しません。なにか提案を？

python - PythonでUnicode（外国語用）の段落からハッシュタグを抽出する

1 に答える 1

Related

Reference