1

私は長い厄介なファイルを持っています、そして私の友人は彼がそのファイルをタブで区切っていると私に言います..しかし私がそうするとき:

  tokens = line.split("\t")

分割されません...

しかし、何かが足りないのかもしれません。私の友人は、ファイルがタブで区切られていることを確信しているようです。タブ区切りのようにも見えます

サンプルファイル

10      AccessibleComputing     0       381202555       2010-08-26T22:38:36Z    OlEnglish       7181920 #F3#    [[Help:Reverting|Reverted]] edits by [[Special:Contributions/76.28.186.133|76.28.186.133]] ([[User talk:76.28.186.133|talk]]) to last version by Gurch  #REDIRECT#F0#[[Computer#F0#accessibility]]#F0#{{R#F0#from#F0#CamelCase}}        lo15ponaybcg2sf49sstw9gdjmdetnk ,Computer_accessibility

Pythonでその隠された区切り文字を知る方法はありますか?

たぶん、文字列を別の形式でコーディングしてください....?

4

2 に答える 2

6

空白で分割するだけです:

line.split()

str.split()引数がない場合、可変幅の空白で分割され、必要に応じて先頭と末尾の空白が削除されます。空白は、タブ、スペース、改行、またはキャリッジリターンです。

>>> '10      AccessibleComputing     0       381202555       2010-08-26T22:38:36Z    OlEnglish       7181920 #F3#    [[Help:Reverting|Reverted]] edits by [[Special:Contributions/76.28.186.133|76.28.186.133]] ([[User talk:76.28.186.133|talk]]) to last version by Gurch  #REDIRECT#F0#[[Computer#F0#accessibility]]#F0#{{R#F0#from#F0#CamelCase}}        lo15ponaybcg2sf49sstw9gdjmdetnk ,Computer_accessibility'.split()
['10', 'AccessibleComputing', '0', '381202555', '2010-08-26T22:38:36Z', 'OlEnglish', '7181920', '#F3#', '[[Help:Reverting|Reverted]]', 'edits', 'by', '[[Special:Contributions/76.28.186.133|76.28.186.133]]', '([[User', 'talk:76.28.186.133|talk]])', 'to', 'last', 'version', 'by', 'Gurch', '#REDIRECT#F0#[[Computer#F0#accessibility]]#F0#{{R#F0#from#F0#CamelCase}}', 'lo15ponaybcg2sf49sstw9gdjmdetnk', ',Computer_accessibility']
于 2013-03-03T22:43:40.413 に答える
1

タブとスペースを混乱させたり、変換したりできますか?たぶん、タブとスペースの両方で分割すると役立つでしょう

import re
re.split('\t|    ', line)
于 2013-03-03T22:39:01.057 に答える