python - findall() で生成された単語リストにフランス語、スペイン語、およびドイツ語の文字がありません

翻译自：https://stackoverflow.com/questions/63343953 2020-08-10T16:14:01.617

50 次

-1

collections.counter() および findall() 関数を使用して、.txt ファイル (65000 語) から単語リストを作成しています。英語によく効きます。ただし、â、á、ü、ö などの他の言語の特殊文字は無視されます。さらに、「t'appele」や「signifie-t-elle」などの単語を組み合わせて、1 つの別個の単語として追加したいと考えています。私はあらゆる種類の正規表現の組み合わせを試しましたが、成功しませんでした。誰かが特殊文字を含める方法を知っていますか? 以下は私のコードです。

with open(text_to_load) as f:
    words_from_text = collections.Counter(
        word.lower()
        for line in f
        for word in re.findall(r'\b[^\W\d_]+\b', line, re.UNICODE))```

python - findall() で生成された単語リストにフランス語、スペイン語、およびドイツ語の文字がありません

1 に答える 1

Related

Reference