小説のテキストを含むファイルから読み込もうとしています。単語を一つ一つ読んでいきたいのですが、もちろん小説には句読点があるので難しいです。
小説は単語だけ読めばいいので、「、」「!」などの文字は無視してください。と "?" ですが、実際には単語の一部であるアポストロフィーなど、アルファベット以外の特定の文字を含める必要があります。
私は正規表現が得意ではありませんが、この正規表現は文字のみを取得し、アポストロフィを考慮していないと感じています。
[^A-Za-z]+
句読点を無視し、単語の一部を形成するアポストロフィやその他の文字を保持しながら、単語で区切る正規表現を取得するのを手伝ってくれる人はいますか?