私はphpに長い文字列があり、それぞれが異なる文を持つ異なる段落で構成されています(これはほとんど小さな文書です)。関係のない記号や文字を削除して、全体を単語に分割したいと思います。たとえば、コンマ、スペース、改行、ピリオド、感嘆符など、無関係な可能性のあるものをすべて削除して、単語だけで終わるようにします。
たとえば、正規表現と関数を使用するなど、一度にこれを行う簡単な方法はありますか、preg_split
または関数を何度も使用する必要がありますか?explode
たとえば、最初にすべての文を取得します(「.」、「! 」など)。次に、「、」やスペースなどを削除して単語を取得します。
explode
時間がかかり、可能なすべての文字の一部を誤って省略する可能性があるため、関係のないすべての可能な文字に対して関数を使用したくありません。
より自動化された方法を見つけたいと思います。適切に定義された正規表現が機能する可能性があると思いますが、考えられるすべての文字を指定する必要があり、php で正規表現を記述する方法もわかりません。
それで、あなたは私に何を提案できますか?