私は可読性テストを実装しており、音節を検出する単純なアルゴリズムを実装しています。母音のシーケンスの検出私はそれらを単語で数えています。たとえば、単語「shoud」には「ou」という母音のシーケンスが1つ含まれています。それらを数える前に、-les、-e、-ed などの接尾辞を削除します (たとえば、「like」という単語には 1 つの音節が含まれていますが、母音のシーケンスが 2 つ含まれているため、この方法は機能します)。
しかし...これらの単語/シーケンスを検討してください:
- X線(2音節を含む)
- I'm (一音節、テキスト中のすべてのアポストロフィを削除してもよいでしょうか?)
- 入る'
- 私はしただろう
- n' (例: Pork n' Beans)
- 3番目(これをどのように処理するのですか?)
- 12345
特殊文字はどうする?それらをすべて削除しますか?ほとんどの単語には問題ありませんが、「n'」や「x-ray」には問題があります。そして、サイファーをどのように扱うか。
これらは言葉の特殊なケースですが、この主題に関する経験やアイデアを見てとてもうれしく思います.