現在、Twitterストリームを取得するWebアプリケーションを開発しており、自然言語処理を自分で作成しようとしています。
私のデータはTwitter(140文字に制限)からのものであるため、多くの単語が短縮されています。この場合、スペースが省略されています。
例えば:
"Hi, my name is Bob. I m 19yo and 170cm tall"
次のようにトークン化する必要があります。
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
19
との間にスペースがないことに注意してyo
ください。私は主にそれらの単位で数を抽出するためにそれを使用します。19yo
簡単に言うと、必要なのは、区切り文字なしで数字または文字のチャンクによって数字が含まれる各トークンを「分解」する方法です。
'123abc'
になります['123', 'abc']
'abc123'
になります['abc', '123']
'abc123xyz'
になります['abc', '123', 'xyz']
等々。
PHPでそれを達成するための最良の方法は何ですか?
私はそれに近いものを見つけましたが、それはC#であり、特に日/月の分割に適しています。文字と数字に基づいてC#で文字列を分割するにはどうすればよいですか