Web ページのコンテンツを読み取り、NLP アルゴリズムを使用して文を解析する Web アプリケーションがあります。私は正規表現を使用してコンテンツを単一の文に分割し、それらを解析しています。
Â
のような文字を文章から削除したいと思います。これらの文字は、HTML エンコーディングによるものだと思います。
[^\w\d]+
句読点をそのままにする必要があるため、明らかに正規表現のようなものやそのバリエーションを使用することはできません。もちろん、句読点などのそれぞれに個別の例外を追加することもできますが[^\w\d\.,:]+
、おそらくそれが... 面白い文字であることを知っている文字クラスのように、これを行う簡単な方法があればいいのですが?
どんな助けでも大歓迎です。ありがとう。
編集: アプリは PHP で構築されておりfile_get_contents()
、サイトから HTML データを取得し、<p>
タグ内のコンテンツを読み取るために単純なものを使用しています。