unicode - 特定の言語の文字を抽出する

Question

言語の文字、英数字、英語のアルファベットを含むファイルから特定の言語の文字のみを抽出する方法

score 0 · Accepted Answer

これは、いくつかの要因によって異なります。

文字列は UTF-8 でエンコードされていますか?
記号や句読点など、英語以外のすべての文字が必要ですか、それとも書き言葉の記号以外の文字のみが必要ですか?
英語またはラテン語以外の文字をキャプチャしますか? つまり、次のような文字が必要ですかé、çそれともロマンティックおよびゲルマン文字以外の文字のみが必要ですか?

そして最後に、

これをどのプログラミング言語で行いたいですか？

UTF-8 を使用していると仮定すると、基本的な句読点は必要ありませんが、他の記号は使用できます。標準のラテン文字は必要ありませんが、アクセント付きの文字などは使用できます。文字列を使用できますすべての非アスキー文字を検索する、使用している言語に関係なく正規表現関数を使用できます。これにより、おそらく取り除こうとしているもののほとんどが排除されます。

php では次のようになります。

$string2 = preg_replace('/[^(\x00-\x7F)]*/','', $string1);

ただし、これにより行末が削除されるため、必要な場合とそうでない場合があります。

unicode - 特定の言語の文字を抽出する

1 に答える 1

Related

Reference