ハッシュタグ(#xxx)、URL(@xxxx)、メンション(@xxx)を保持したまま、英語以外のタグをツイートから削除するにはどうすればよいですか?私はこれを見つけました:content.replaceAll( "\ W"、 "")ここで:Javaの文字列からすべての非 "単語文字"を削除し、アクセント付き文字を残しますか?、しかしそれは本当に役に立ちません。Microsoftのものや他の複雑なメソッドのような多くの言語検出ツールがあることは知っていますが、外部リソース(辞書など)なしでJAVAで使用できる正規表現またはメソッドが必要です。これはツイートの例です:「Meeeeeee!RT @missLOVElace_:誰が私の80,000ツイートを望んでいますか?」
ツイートが英語以外の言語であるかどうかを検出できるメソッドがJAVAにある場合、それは非常に優れています。同様のものがここにあります:http: //babel-fett.heroku.com/ ですが、Rubyにあります。
ありがとう!