perl - この二重カウントを防ぐにはどうすればよいですか?

Question

そのような数値の範囲の2つのセットがあります。

Set 1: 1..6, 2..7, 3..8, 4..9, 5..10
Set 2: 2..7, 2..6

セット 2 の範囲とセット 1 の範囲を比較したいので、

完全一致の数を数える (2..7)
一致した下位数と一致しない上位数のインスタンスの数をカウントします ( 2..6)
一致しない下位数と一致しない上位数のインスタンスの数を数えます ( 1..7)

次のコードは機能しますが、2 回カウント2.さ3.れます。例: セット 2 の範囲は、との両方に2..7適合します。1 つのインスタンスのみを記録するにはどうすればよいですか?2.3.

#!/usr/bin/perl
use strict;
use warnings;

#Set 1: 1..6, 2..7, 3..8, 4..9, 5..10
my @set1_low = (1..5);
my @set1_up = (6..10);
my @set1 = ([@set1_low],[@set1_up]);

#Set 2: 2..7, 2..6
my @set2_low = (2,2);
my @set2_up = (7,6);
my @set2 = ([@set2_low],[@set2_up]);

my $size1 = scalar(@set1_low);
my $size2 = scalar(@set2_low);

my $low_count=0;
my $up_count=0;
my $match=0;

for(my $a=0; $a < $size1; $a++){
    my ($lower,$upper) = ($set1[0][$a],$set1[1][$a]);
    for(my $b=0; $b < $size2; $b++){
        #If lower and upper are same to set1, $both++
        if ($lower==$set2[0][$b] && $upper==$set2[1][$b]){
            $match++;
            next;
        }

        #If lower match but upper unmatch, $low_count++
        elsif ($lower==$set2[0][$b] && $upper!=$set2[1][$b]){
            $low_count++;
            next;
        }

        #if upper match but lower unmatch, $up_count++
        elsif ($lower!=$set2[0][$b] && $upper==$set2[1][$b]){
            $up_count++;
            next;
        } 
     }
 }
 print "Perfect match: $match\n";
 print "lower match, upper unmatch: $low_count\n";
 print "upper match, lower unmatch: $up_count\n";

また、セット 2 にのような範囲が含まれている場合22..32、セット 1 の範囲と重複しない範囲をどのように検出できますか? アイデアや提案はありますか？

score 1 · Accepted Answer

必要な動作を得るための主な変更点は、別の順序でループすることです。つまり、主にセット 2 をループし、次にセット 1 をループします。これは、セット 2 のプロパティに関心があるため、プログラムするより自然な方法です。変化を詳しく見てください。

strictとwarningsプラグマタを有効にすると良いです！必ず守ってください。

#! /usr/bin/env perl
use strict;
use warnings;

完全にばらばらな範囲について質問されたので、ここでセット 2 に追加します。

#Set 1: 1..6, 2..7, 3..8, 4..9, 5..10
my @set1_low = (1..5);
my @set1_up = (6..10);
my @set1 = ([@set1_low],[@set1_up]);

#Set 2: 2..7, 2..6, 22..32
my @set2_low = (2,2,22);
my @set2_up = (7,6,32);
my @set2 = ([@set2_low],[@set2_up]);

サイズを計算するには、スカラーに割り当てているため、スカラーコンテキストが既に暗示されています。これらをより簡潔に書く方法はmy $size1 = @set1_low;、たとえばです。

my $size1 = scalar(@set1_low);
my $size2 = scalar(@set2_low);

完全なミスをカウントしたいので、ここでを追加し$no_matchます。

my $low_count=0;
my $up_count=0;
my $match=0;
my $no_match=0;

ループが反転していることに注意して$aください$b。セット 2 の範囲ごとに、コードはセット 1 の範囲を順番に調べて、最初に満たされたプロパティを検索します。ヒット時には、セット 1 の残りの範囲を考慮する必要はありません。なぜなら、あなたの質問ではダブルカウントをしたくないと述べているため、内側のループをで終了しますlast。プログラムで最初に発生するテストが優先されるように、プロパティを重要度の高い順に並べます。

どのプロパティも一致しない場合 (つまり、$found_matchfalse のままである場合) は、空振りを記録します。

文体上の注意として、単にコードを英語で言い換えるだけのコメントは価値がありません。コメントは理由と非自明な情報を説明するためのものなので、以下で削除しました。

for(my $b=0; $b < $size2; $b++){
    my $found_match=0;
    for(my $a=0; $a < $size1; $a++){
        my ($lower,$upper) = ($set1[0][$a],$set1[1][$a]);
        if ($lower==$set2[0][$b] && $upper==$set2[1][$b]){
            $match++;
            $found_match++;
            last;
        }
        elsif ($lower==$set2[0][$b] && $upper!=$set2[1][$b]){
            $low_count++;
            $found_match++;
            last;
        }
        elsif ($lower!=$set2[0][$b] && $upper==$set2[1][$b]){
            $up_count++;
            $found_match++;
            last;
        }
    }
    unless ($found_match) {
        $no_match++;
    }
}

最後に、結果を印刷します。

print "Perfect match: $match\n";
print "lower match, upper unmatch: $low_count\n";
print "upper match, lower unmatch: $up_count\n";
print "No match: $no_match\n";

出力：

完全一致: 1
下位一致、上位不一致: 0
上位一致、下位不一致: 1
一致しない: 1

上記のデータ構造とスタイルは、Perl にとって少し不自然です。解決しようとしている問題の状況について詳しく教えていただければ、より役立つ提案を行うことができます。

より多くのテスト (部分的なオーバーラップなど) を追加する負担により、より良いデータ構造を選択することが急速に迫られます。C プログラムで行う必要があるかもしれないように、上限と下限に並列配列を使用する代わりに、各範囲を単位として扱います。

my @set1 = ([1, 6], [2, 7], [3, 8], [4, 9], [5, 10],           [90, 150]);
my @set2 = ([2, 7], [2, 6], [7, 8],                  [22, 32], [80, 140]);

下限と上限が同じスカラー (この場合は配列への参照) に関連付けられているため、2 つの範囲が下限を共有しているかどうか、または上限を共有しているかどうかを尋ねることができます。

sub lowers  { $_[0][0] == $_[1][0] }
sub uppers  { $_[0][1] == $_[1][1] }

これらが定義されていれば、完全一致のテストは簡単です。

sub match   { lowers(@_) && uppers(@_) }

オーバーラップをテストするとき、and を書く$range1[0]の$range2[1]はすぐに面倒になるので、以下では範囲を ( a ₀ , a ₁ ) と ( b ₀ , b ₁ ) に分解します。次に、一方の範囲のいずれかのエンドポイントが他方の範囲内にあるかどうかをテストします。

sub overlap {
  my($a0,$a1,$b0,$b1) = map @$_, @_;
  $a0 >= $b0 && $a0 <= $b1 || $a1 >= $b0 && $a1 <= $b1;
}

これらの各条件をテストするためのコードは、呼び出す関数とインクリメントするカウントが異なるだけで、ほとんど同じになるので、テストを因数分解してそれぞれのカウントに関連付けましょう。@testsテストは互いに重複していますが、多くても 1 つのテストが「信用」されるため、期待する結果が得られるように順序を変更する準備をしてください。

my $low_count=0;
my $up_count=0;
my $match=0;
my $overlap=0;
my $no_match=0;

my @tests = (
    [\&match,   \$match],
    [\&lowers,  \$low_count],
    [\&uppers,  \$up_count],
    [\&overlap, \$overlap],
);

アルゴリズムのコアは驚くほど簡潔になりました。コードは、他の人に説明する方法に似ています。つまり、セット 2 の各範囲について、次に各テストについて、セット 1 のすべての範囲をスキャンします。一致したら、成功を記録し、セット 2 の次の範囲に進みます。すべてのテストを試して成功しなかった後、失敗に注意して続行します。

SET2:
foreach my $two (@set2) {
    for (@tests) {
        my($test,$count) = @$_;
        if (grep $test->($_, $two), @set1) {
            ++$$count;
            next SET2;
        }
    }

    ++$no_match;
}

はい、アルゴリズムは簡潔ですが、二次時間の複雑さがあります。これは、たとえば、セットのサイズを 3 倍にすると、約 9 倍の速度低下が生じることを意味します。

出力コードは期待どおりです。

print "Perfect match: $match\n";
print "lower match, upper unmatch: $low_count\n";
print "upper match, lower unmatch: $up_count\n";
print "Overlap: $overlap\n";
print "No match: $no_match\n";

出力：

完全一致: 1
下位一致、上位不一致: 1
上位一致、下位不一致: 1
重複: 1
一致しない: 1

score 1 · Accepted Answer

my @set1 = map [ split /\.\./ ], split /\s*,\s*/, '1..6, 2..7, 3..8, 4..9, 5..10';
my @set2 = map [ split /\.\./ ], split /\s*,\s*/, '2..7, 2..6';

my (%exact, %lo, %hi);
for (@set2) {
   my ($l,$h) = @$_;
   ++$exact{$l}{$h};
   ++$lo{$l};
   ++$hi{$h};
}

my $exact               = 0;
my $partial_match_lo_hi = 0;
my $partial_match_lo    = 0;
my $partial_match_hi    = 0;
my %mismatch;
for (@set1) {
   my ($l,$h) = @$_;
   if    ( $exact{$l}{$h}     ) { ++$exact;               }
   elsif ( $lo{$l} && $hi{$h} ) { ++$partial_match_lo_hi; }
   elsif ( $lo{$l}            ) { ++$partial_match_lo;    }
   elsif ( $hi{$h}            ) { ++$partial_match_hi;    }
}

perl - この二重カウントを防ぐにはどうすればよいですか?

2 に答える 2

Related

Reference