この質問の「トリッキーな」部分は、アルファベットが意味するのは26文字だけではないということです。また、アクセント付きの文字やヘブライ語のアリベスなど、アルファベットのようなものも含める必要があります。
なぜそれらが必要なのですか?
テキストを単語に分割したい。
ラテン アルファベット、ヘブライ語のアリベス、アラブ アブジャッドなどのアルファベットは、スペースで区切ります。
漢字は何も区切られていません。
ですから、テキストはアルファベット以外のもので区切る必要があると思います。
つまり、a、b、c、d、é は問題ありません。
駅,南,口,第,自,転,車.,3,5,6 ではなく、そのような区切り文字はすべて独自の単語にする必要があります。またはそのようなもの。
要するに、文字がそれ自体で単語であるか、単語の一部であるかを検出したいと考えています。
私は何を試しましたか?
ここで私がずっと前に尋ねた質問を確認できます: 文字の一部が中国語の場合、utf-8 文字を単語に分割するにはどうすればよいですか?
そこに唯一の答えを実装しましたが、漢字が分割されていないことがわかりました。何もないに基づいて分割してみませんか?まあ、それはアルファベットも分割されていることを意味します。
これらすべてのアルファベットが「固着」して、UTFに基づいてそれらを分離できる場合、それも問題ありません。
一部の文字が中国語の場合、どのように utf-8 文字を単語に分割できますか?の回答を使用します。 アルファベット以外のすべての文字を「引き出し」ます。
完璧な解決策ではありませんが、西洋の文字と漢字が同じテキストに表示されることはめったにないので、私にとっては十分です.