collections.counter() および findall() 関数を使用して、.txt ファイル (65000 語) から単語リストを作成しています。英語によく効きます。ただし、â、á、ü、ö などの他の言語の特殊文字は無視されます。さらに、「t'appele」や「signifie-t-elle」などの単語を組み合わせて、1 つの別個の単語として追加したいと考えています。私はあらゆる種類の正規表現の組み合わせを試しましたが、成功しませんでした。誰かが特殊文字を含める方法を知っていますか? 以下は私のコードです。
with open(text_to_load) as f:
words_from_text = collections.Counter(
word.lower()
for line in f
for word in re.findall(r'\b[^\W\d_]+\b', line, re.UNICODE))```