.net - 文字列の複雑さを測定するには?

Question

いくつかの長い文字列 (~ 1.000.000 文字) があります。各文字列には、定義されたアルファベットの記号のみが含まれます。たとえば、

A = {1,2,3}

サンプル文字列

string S1 = "1111111111 ..."; //[meta complexity] = 0
string S2 = "1111222333 ..."; //[meta complexity] = 10
string S3 = "1213323133 ..."; //[meta complexity] = 100

Qこれらの文字列の複雑さを定量化するには、どのような尺度を使用できますか? S1 は S3 ほど複雑ではないことがわかりますが、.NET からプログラムでそれを行うにはどうすればよいでしょうか? ツール/文献へのアルゴリズムまたはポイントは大歓迎です。

編集

シャノンエントロピーを試してみましたが、あまり役に立たないことがわかりました。これらのシーケンスAAABBBCCCとABCABCABCとACCCBABABとBBACCABACのH値は同じになります。

これが私がやったことです

score 13 · Accepted Answer

zip などの標準的な手法を使用して文字列を圧縮すると、複雑さがよくわかります。

圧縮率が良い ≈ 複雑度が低い圧縮
率が悪い ≈ 複雑度が高い

.net - 文字列の複雑さを測定するには?

編集

1 に答える 1

Related

Reference