一連の句読点を削除したかったので、最終的に使用しました
re.findall(r"[\w]+|[^\s\w]", text)
それはうまく機能し、私の問題を解決します。私が理解していないのは、括弧内の詳細とパターン全体です。とはどういうr"[\w]+|[^\s\w]"
意味ですか? Python標準ライブラリで調べたところ、次のように書かれています。
re.findall(pattern, string, flags=0)
文字列のリストとして、文字列内のパターンの重複しない一致をすべて返します。文字列は左から右にスキャンされ、見つかった順序で一致が返されます。パターンに 1 つ以上のグループが存在する場合は、グループのリストを返します。パターンに複数のグループがある場合、これはタプルのリストになります。空の一致は、別の一致の先頭に触れない限り、結果に含まれます。
これを理解できるかどうかはわかりませんが、説明は少し曖昧に聞こえます。この文脈でのパターンが何を意味し、それが findall() メソッドでどのように正確に定義されているか教えてください。