javascript - 正規表現を使用してさまざまな方法で単語を分割する

Question

Solr のWordDelimiterFilterに似たものに取り組んでいますが、Java ではありません。

次のように単語をトークンに分割したい:

P90X                 = P, 90, X (split on word/number boundary)

TotallyCromulentWord = Totally, Cromulent, Word (split on lowercase/uppercase boundary)

TransAM              = Trans, AM

上記の例に固有のものではなく、一般的な解決策を探しています。できれば、後読みをサポートしていない正規表現のフレーバーですが、必要に応じて、後読みを実行できる PL/perl を使用できます。

SOでいくつかの回答が見つかりましたが、それらはすべて後読みを使用しているようです。

分割するもの：

小文字から大文字への変換
文字から数字へ、または数字から文字への移行
(オプション) 他のいくつかの文字に分割 (- _)

一番気になるのは1と2です。

score 0 · Accepted Answer

この正規表現は、段落または文字列内のすべての単語をトークンに分割する必要があります。
あなたの例の単純なケースでも機能します。

グローバルに一致します。また、同様に実行できる他の特定の区切り文字を追加したい場合。

   # /(?:[A-Z]?[a-z]+(?=[A-Z\d]|[^a-zA-Z\d]|$)|[A-Z]+(?=[a-z\d]|[^a-zA-Z\d]|$)|\d+(?=[a-zA-Z]|[^a-zA-Z\d]|$))[^a-zA-Z\d]*|[^a-zA-Z\d]+/

   (?:
        [A-Z]? [a-z]+ 
        (?= [A-Z\d] | [^a-zA-Z\d] | $ )
     |  
        [A-Z]+ 
        (?= [a-z\d] | [^a-zA-Z\d] | $ )
     |  
        \d+ 
        (?= [a-zA-Z] | [^a-zA-Z\d] | $ )
   )
   [^a-zA-Z\d]* 
|  
   [^a-zA-Z\d]+

javascript - 正規表現を使用してさまざまな方法で単語を分割する

2 に答える 2

Related

Reference