awk - awk n-gram 抽出が正しくない

Question

現在、入力ファイルからすべての n-gram を抽出する awk スクリプトに取り組んでいます。ファイルで awk スクリプトを実行すると、すべての n-gram (ソート済み) が出力され、横に出現回数が表示されます。入力ファイルでテストすると、n-gram の正しい順序が出力されます。発生数だけが正しくありません。nグラムを抽出するために、次のコードがあります。

$1=$1   
line=tolower($0)
split(line,chars,"")
begin_len=0 
for (i in chars){
    ngram=""
    for (ind=0;ind<n;ind++){
        ngram=ngram""chars[i+ind]
    }
    if(begin_len == 0){ 
        begin_len=length(ngram)
    }
    if(length(ngram) == begin_len){ 
        counter+=1
        freq_tabel[ngram]+=1
    }
}

（ソート機能は含まれていません）コードに何か問題があるのではないかと思っていました。それとも、私が見落としているいくつかの側面がありますか?

私が持つべき出力は次のとおりです。

代わりに、次の出力があります。

ご覧のとおり、n-gram は正しいのですが、出現回数は正しくありません。

入力ファイル: http://cl.ly/202j3r0B1342

score 1 · Accepted Answer

答えではありませんが、役に立つかもしれません (n=2 と仮定)。

元のファイル (UTF-8 のように見える) を latin-1 に変換しましたか? 私は2セットのフィギュアを手に入れました：

==> sorted.latin1_in_utf8_locale <==
   1566 n 
   1308 en
   1072 e 
    929 de
    836  v

==> sorted.utf8_in_utf8_locale <==
   1579 n 
   1320 en
   1080 e 
    940 de
    838  v

latin-1 入力を使用すると、数字はあなたのものに近づきます。予想されるものにutf-8を使用します。

ただし、どちらも一致しません。頭をかきむしる。

ところで、私はスクリプト内の ngram をソートしていませんが、それらをにパイプするのに適した形式で出力していsort -rnます。しかし、これは違いを引き起こさないはずです。

for (ngram in freq_tabel)
    printf "%7i %s\n", freq_tabel[ngram], ngram

awk - awk n-gram 抽出が正しくない

2 に答える 2

Related

Reference