perl - [^\w] は一部の単語の文字に一致するのに [^\p{Word}] には一致しないのはなぜですか?

Question

Unicode プロパティに一致する文字を出力する Perl スクリプトを作成しました。これまでのところ、ほとんどのプロパティで問題なく機能しているようです。

ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõöøùúûüýþ ÿしかし、一致する文字間で出力され[^\w]ます。これらの文字はむしろ一致するはず\wです。奇妙なことに、それらは一致し\p{Word}ます。

私は成功せずに試しました：

map { decode ( "UTF-8", $_ ) }
map { pack 'U0C*', unpack 'C*', $_ }

[^\w]それらの単語の文字と一致しないようにするにはどうすればよいですか?

chars.pl

#!/usr/bin/perl

use warnings;
use strict;
use utf8;

binmode STDOUT, ':utf8';

my $c;
my $cols = 80;
my $arg = shift;
my $regex = qr/$arg/;

for ( map { chr } 0x20 .. 0xFFFF )
{
  next if /\p{Unassigned}|\p{NChar}|\p{Cs}/;

  if ( $_ =~ $regex )
  {
    print STDOUT;
    print STDOUT "\n" if ++$c % $cols == 0;
  }

}

print STDOUT "\n" if defined $c and $c % $cols != 0;
exit 0;

良い：

$ ./chars.pl '\p{Cyrillic}'
ЀЁЂЃЄЅІЇЈЉЊЋЌЍЎЏАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюя
ѐёђѓєѕіїјљњћќѝўџѠѡѢѣѤѥѦѧѨѩѪѫѬѭѮѯѰѱѲѳѴѵѶѷѸѹѺѻѼѽѾѿҀҁ҂҃҄҇ҊҋҌҍҎҏҐґҒғҔҕҖҗҘҙҚқҜҝҞҟҠҡ
ҢңҤҥҦҧҨҩҪҫҬҭҮүҰұҲҳҴҵҶҷҸҹҺһҼҽҾҿӀӁӂӃӄӅӆӇӈӉӊӋӌӍӎӏӐӑӒӓӔӕӖӗӘәӚӛӜӝӞӟӠӡӢӣӤӥӦӧӨөӪӫӬӭӮӯӰӱ
ӲӳӴӵӶӷӸӹӺӻӼӽӾӿԀԁԂԃԄԅԆԇԈԉԊԋԌԍԎԏԐԑԒԓԔԕԖԗԘԙԚԛԜԝԞԟԠԡԢԣԤԥԦԧᴫᵸⷠⷡⷢⷣⷤⷥⷦⷧⷨⷩⷪⷫⷬⷭⷮⷯⷰⷱⷲⷳⷴⷵⷶⷷ
ⷸⷹⷺⷻⷼⷽⷾⷿꙀꙁꙂꙃꙄꙅꙆꙇꙈꙉꙊꙋꙌꙍꙎꙏꙐꙑꙒꙓꙔꙕꙖꙗꙘꙙꙚꙛꙜꙝꙞꙟꙠꙡꙢꙣꙤꙥꙦꙧꙨꙩꙪꙫꙬꙭꙮ꙯꙰꙱꙲꙳꙼꙽꙾ꙿꚀꚁꚂꚃꚄꚅꚆꚇꚈꚉꚊꚋꚌꚍꚎꚏ
ꚐꚑꚒꚓꚔꚕꚖꚗ
$

良い：

$ ./chars.pl '[^\p{Word}]' | grep É
$

悪い：

$ ./chars.pl '[^\w]' | grep É
°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþ
$

Perl v5.14.2

score 12 · Accepted Answer

Perl での Unicode サポートは大きなトピックです。たとえば、この回答を参照してください。

\wと同じように一致させるには、文字セット修飾子を有効\p{Word}にする必要があります/u(バージョン 5.14 以降の Perl で使用可能)。

最も簡単な方法は、プログラムを開始することです

use v5.14;

これは（とりわけ）機能unicode_stringsを有効にし、すべての正規表現をデフォルトで/u文字セット修飾子にします。その機能を明示的に有効にすることもできます。

use feature 'unicode_strings';

3 番目の方法は/u、正規表現ごとに文字セットを変更するために modified in regex を使用することです。

perlreマンページから、さまざまな正規表現文字セット修飾子の効果について読むことができます。これらは/d、/u、/aおよび/lです。

これ\wはperlrecharclassマンページで説明されています。

perl - [^\w] は一部の単語の文字に一致するのに [^\p{Word}] には一致しないのはなぜですか?

chars.pl

1 に答える 1

Related

Reference