1

私は最近、いくつかの Python と、それを自分の仕事に適用する方法を学んでいます。いくつかのスクリプトを正常に作成しましたが、理解できない問題が発生しています。

1行あたり2つのタブで区切られた列で、〜4000行のファイルを開いています。入力ファイルを読み取るときに、リスト インデックスが範囲外であるというインデックス エラーが発生します。ただし、毎回エラーが発生しますが、毎回同じ行で発生するわけではありません (毎回別の行でエラーがスローされます!)。したがって、何らかの理由で、通常は機能しますが、(一見) ランダムに失敗します。

私は文字通り先週 Python の学習を始めたばかりなので、困惑しています。私は同じ問題を探しましたが、似たようなものは見つかりませんでした。さらに、これが言語固有の問題なのか IPython 固有の問題なのかはわかりません。どんな助けでも大歓迎です!

input = open("count.txt", "r")
changelist = []
listtosort = []
second = str()

output = open("output.txt", "w")

for each in input:
    splits = each.split("\t")
    changelist = list(splits[0])
    second = int(splits[1])

print second

if changelist[7] == ";":   
    changelist.insert(6, "000")
    va = "".join(changelist) 
    var = va + ("\t") + str(second)
    listtosort.append(var)
    output.write(var)

elif changelist[8] == ";":   
    changelist.insert(6, "00")
    va = "".join(changelist) 
    var = va + ("\t") + str(second)
    listtosort.append(var)
    output.write(var)

elif changelist[9] == ";":   
    changelist.insert(6, "0")
    va = "".join(changelist) 
    var = va + ("\t") + str(second)
    listtosort.append(var)
    output.write(var)

else:
    #output.write(str("".join(changelist)))
    va = "".join(changelist)
    var = va + ("\t") + str(second)
    listtosort.append(var)
    output.write(var)

output.close()

エラー

---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
/home/a/Desktop/sharedfolder/ipytest/individ.ins.count.test/<ipython-input-87-32f9b0a1951b> in <module>()
     57     splits = each.split("\t")
     58     changelist = list(splits[0])
---> 59     second = int(splits[1])
     60 
     61     print second

IndexError: list index out of range

入力:

ID=cds0;Name=NP_414542.1;Parent=gene0;Dbxref=ASAP:ABE-0000006,UniProtKB%2FSwiss-Prot:P0AD86,Genbank:NP_414542.1,EcoGene:EG11277,GeneID:944742;gbkey=CDS;product=thr 12
ID=cds1000;Name=NP_415538.1;Parent=gene1035;Dbxref=ASAP:ABE-0003451,UniProtKB%2FSwiss-Prot:P31545,Genbank:NP_415538.1,EcoGene:EG11735,GeneID:946500;gbkey=CDS;product=deferrrochelatase%2C  50
ID=cds1001;Name=NP_415539.1;Parent=gene1036;Note=PhoB-dependent%2C  36

望ましい出力:

ID=cds0000;Name=NP_414542.1;Parent=gene0;Dbxref=ASAP:ABE-0000006,UniProtKB%2FSwiss-Prot:P0AD86,Genbank:NP_414542.1,EcoGene:EG11277,GeneID:944742;gbkey=CDS;product=thr  12
ID=cds1000;Name=NP_415538.1;Parent=gene1035;Dbxref=ASAP:ABE-0003451,UniProtKB%2FSwiss-Prot:P31545,Genbank:NP_415538.1,EcoGene:EG11735,GeneID:946500;gbkey=CDS;product=deferrrochelatase%2C  50
ID=cds1001;Name=NP_415539.1;Parent=gene1036;Note=PhoB-dependent%2C  36
4

2 に答える 2

0

これは、タブ文字を含まない行が count.txt にある場合に発生します。したがって、タブ文字で分割すると、splits[1]. したがって、「インデックスが範囲外です」というエラーが発生します。

エラーの原因となっている行を知るには、57 行print(each)目に afterを追加します。エラー メッセージの前に出力された行が原因です。splits入力ファイルが変更され続けると、別の場所が取得されます。このような不正な行を処理するようにスクリプトを変更してください。

于 2014-02-10T13:32:00.630 に答える
0

あなたが取得している理由IndexErrorは、入力ファイルが明らかに完全にタブで区切られていないためです。splits[1]そのため、アクセスしようとしても何もありません。

コードでリファクタリングを使用できます。まず第一に、あなたはif-checks で自分自身を繰り返しています。それは不要です。これcds0はおそらくあなたが望むものではない7文字にパディングするだけです. コードをリファクタリングして、もう少し Pythonic でドライなものにする方法を示すために、以下をまとめました。あなたのデータセットで動作することを保証することはできませんが、別のやり方を理解するのに役立つことを願っています.

    to_sort = []
    # We can open two files using the with statement. This will also handle 
    # closing the files for us, when we exit the block.
    with open("count.txt", "r") as inp, open("output.txt", "w") as out:
        for each in inp:
           # Split at ';'... So you won't have to worry about whether or not
           # the file is tab delimited
           changed = each.split(";")

           # Get the value you want. This is called unpacking.
           # The value before '=' will always be 'ID', so we don't really care about it.
           # _ is generally used as a variable name when the value is discarded.
           _, value = changed[0].split("=")

           # 0-pad the desired value to 7 characters. Python string formatting
           # makes this very easy. This will replace the current value in the list.
           changed[0] = "ID={:0<7}".format(value)

           # Join the changed-list with the original separator and
           # and append it to the sort list.
           to_sort.append(";".join(changed))

       # Write the results to the file all at once. Your test data already
       # provided the newlines, you can just write it out as it is.
       output.writelines(to_sort)

       # Do what else you need to do. Maybe to_list.sort()?

このコードはコードを 8 行に減らしますが、まったく同じことを達成し、繰り返さず、非常に理解しやすいことに気付くでしょう。

Zen of python であるPEP8を読み、公式チュートリアルを実行してください。

于 2014-02-10T15:00:54.373 に答える