\t
(タブ)で区切られた可変列番号を含むテキスト ファイルがいくつかあります。このようなもの:
value1x1 . . . . . . value1xn
. . . . . . . value2xn
. . . . . . . .
valuemx1 . . . . . . valuemxn
次のコードを使用して、値の頻度をスキャンして判断できます。
f2 = open("out_freq.txt", 'w')
f = open("input_raw",'r')
whole_content = (f.read())
list_content = whole_content.split()
dict = {}
for one_word in list_content:
dict[one_word] = 0
for one_word in list_content:
dict[one_word] += 1
a = str(sorted(dict.items(),key=func))
f2.write(a)
f2.close()
これの出力は次のとおりです。
('26047', 13), ('42810', 13), ('61080', 13), ('106395', 13), ('102395', 13)...
これの構文は で('value', occurence_number)
あり、期待どおりに機能します。私が達成しようとしていることは次のとおりです。
出力を次の構文に変換するには:
('value', occurrence_number, column_number)
ここで、列番号は、input_raw.txt でこの値が発生した列番号です。同じ出現番号を持つ値をグループ化して列を分離し、これらを別のファイルに書き込むには