0

小説のテキストを含むファイルから読み込もうとしています。単語を一つ一つ読んでいきたいのですが、もちろん小説には句読点があるので難しいです。

小説は単語だけ読めばいいので、「、」「!」などの文字は無視してください。と "?" ですが、実際には単語の一部であるアポストロフィーなど、アルファベット以外の特定の文字を含める必要があります。

私は正規表現が得意ではありませんが、この正規表現は文字のみを取得し、アポストロフィを考慮していないと感じています。

[^A-Za-z]+

句読点を無視し、単語の一部を形成するアポストロフィやその他の文字を保持しながら、単語で区切る正規表現を取得するのを手伝ってくれる人はいますか?

4

2 に答える 2

1

パターンは次のようになります。

\b[a-zA-Z]+[\']*[a-zA-Z]*\b

単語の境界を考慮し、1 つのアポストロフィを許可します。他の特殊文字は、2 番目の角括弧のセットに入れることができます。

于 2012-09-17T21:49:14.073 に答える
-1

[]角かっこ内に含めたい他の特殊文字を含めるだけです。一部の文字はエスケープする必要がある場合があります。以下にアポストロフィを含めました。

/([^A-Za-z']+)/
于 2012-09-17T21:44:46.917 に答える