一連のテキストファイルを解析し、Python(2.7.3)を使用してCSVファイルとして保存しようとしています。すべてのテキストファイルには4行の長さのヘッダーがあり、これを取り除く必要があります。データ行には、「(引用符)」、「-(ダッシュ)」、「:列」、空白などのさまざまな区切り文字があります。これらすべての異なる区切り文字を使用してC ++でコーディングするのは面倒なので、Pythonで試してみることにしました。 C /C++に比べて比較的簡単に実行できます。
1行のデータでテストするためのコードを作成しましたが、実際のファイルで機能させることはできませんでした。1行を解析するために、テキストオブジェクトと「replace」メソッドを使用していました。私の現在の実装はテキストファイルをリストとして読み取るようで、リストオブジェクトのreplaceメソッドはありません。
Pythonの初心者なので、この時点で行き詰まりました。任意の入力をいただければ幸いです!
ありがとう!
# function for parsing the data
def data_parser(text, dic):
for i, j in dic.iteritems():
text = text.replace(i,j)
return text
# open input/output files
inputfile = open('test.dat')
outputfile = open('test.csv', 'w')
my_text = inputfile.readlines()[4:] #reads to whole text file, skipping first 4 lines
# sample text string, just for demonstration to let you know how the data looks like
# my_text = '"2012-06-23 03:09:13.23",4323584,-1.911224,-0.4657288,-0.1166382,-0.24823,0.256485,"NAN",-0.3489428,-0.130449,-0.2440527,-0.2942413,0.04944348,0.4337797,-1.105218,-1.201882,-0.5962594,-0.586636'
# dictionary definition 0-, 1- etc. are there to parse the date block delimited with dashes, and make sure the negative numbers are not effected
reps = {'"NAN"':'NAN', '"':'', '0-':'0,','1-':'1,','2-':'2,','3-':'3,','4-':'4,','5-':'5,','6-':'6,','7-':'7,','8-':'8,','9-':'9,', ' ':',', ':':',' }
txt = data_parser(my_text, reps)
outputfile.writelines(txt)
inputfile.close()
outputfile.close()