次のようなデータ行を含む非常に大きなテキストファイルがあります。
('#DownWithAssad', '1')
('#DownYoTLParty', '1')
('#Download', '8')
('#Download:', '2')
('#Downloads', '2')
('#DownstairsMixtape', '1')
('#DowntonAbbey', '12')
('#DowntonAbbey?', '1')
('#DowntonPBS', '23')
('#Downtonabbey', '1')
('#DowntownAbbey', '1')
これは単純な問題のように思えるかもしれませんが、データを最高から最低にソフト化したいので、次のようになります。
('#DowntonPBS', '23')
('#DowntonAbbey', '12')
('#Download', '8')
('#Download:', '2')
('#Downloads', '2')
('#DownstairsMixtape', '1')
('#DownWithAssad', '1')
('#DownYoTLParty', '1')
('#DowntonAbbey?', '1')
('#Downtonabbey', '1')
('#DowntownAbbey', '1')
角かっこ()を削除して、データを次のように分割できることを収集します。
import sys
f = open(sys.argv[1])
for line in f:
line = str(line)[1 : -1]
for sect in line.split(','):
print sect
しかし、ここからどこへ行くのかわかりません。