情報を抽出しようとしているファイルがあります。ファイルには情報が含まれており、行ごとにきちんとした形式であり、情報はコンマで区切られています。
それをリストに入れたい、または特定のインデックスから情報を抽出するためにできることは何でもしたい。ファイルは 1000000000 行を超える巨大なものです。同じ情報を取得するには、すべての行で同じインデックスを抽出する必要があります。これらはファイルから取得したい HASHES であるため、長さに基づいてすべてのハッシュを見つける方法を考えていました。
import os
os.chdir('C:\HashFiles')
f = open('Part1.txt','r')
file_contents=f.readlines()
def linesA():
for line in file_contents:
lista = line.split(',')
print linesA()
これは私がこれまで持っていたすべてであり、これはすべてをインデックス付けできるリストに入れるだけですが、それらのインデックスから別のファイルにデータを出力したいのですが、for ステートメントのためにできません。どうすれば回避できますか?これ?
この情報が保存されているファイルでは、情報を提供したスポンサーに関する情報で始まるため、問題が発生しました。これらの行をバイパスして別の行から開始するにはどうすればよいですか?現時点ではインデックスエラーが発生し、それに対抗する条件を設定する方法がわかりません。この条件を試しましたが、うまくいきませんでした: if line[:] != 15: continue
使用する最新のコード:
csv をインポート
with open('c:/HashFiles/search_engine_primary.sql') as inf, open('c:/HashFiles/hashes.txt','w') as outf:
for i in xrange(47):
inf.next() # skip a line
for line in inf:
data = line.split(',')
if str(line[0]) == 'GO':
continue
hash = data[15]
outf.write(hash + '\n')