python - PythonでのExcelのようなテキストのインポート：固定幅の列を自動的に解析します

Question

Excelで、列が完全に整列せず、データが欠落している可能性がある空白で区切られたテキストをインポートすると、次のようになります。

  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18

固定幅の列として扱うオプションがあり、Excelは列幅を自動的に計算でき、通常はかなり良い結果が得られます。同様に自動的にフォーマットが不十分な固定幅のテキストを分割できるPythonのライブラリはありますか？

編集： これは、Excelでの固定幅のテキストインポートの外観です。手順1では、[固定幅]ラジオボタンをオンにするだけです。次に、手順2で、Excelが列区切りに自動的に追加されています。これが適切に行われないのは、各行の各列の区切りで重複する空白文字が少なくとも1つない場合のみです。

Excelでインポートする固定幅のテキスト

score 4 · Accepted Answer

まず、Excel (2003 年、自宅) はそれほどスマートではありません。列 1000*chi2 にスペースが含まれている場合 (例: 1000 * chi2)、Excel は間違って推測します。

些細なケース: データがもともとタブ (スペースではなく) で区切られていて、空の列を示すために複数のタブが使用されていた場合、少なくとも TCL では、各行をタブの内容で簡単に分割できます。Python でも些細なことだと思います。 .

しかし、あなたの問題は、彼らがスペース文字のみを使用したことだと思います. これを解決するための最大の手がかりは、テキストをメモ帳に貼り付けて、固定サイズのフォントを選択することでした。すべてがきれいに並んでいて、各行の文字数を「長さ」の尺度として使用できます。

したがって、入力のこの機能に依存できる場合は、「ふるい」アプローチを使用して、列の区切りがどこにあるかを自動的に特定できます。最初のパスで行をむしゃむしゃ食べながら、非空白で占められている行に沿った「位置」に注意してください。非空白で占有されている場合は、リストから位置を削除します。進んでいくうちに、空白以外のスペースが決して占められていない一連の位置にすぐにたどり着きます。これらは、列の区切りです。あなたの例では、あなたの「ふるい」は、位置10-16、23-24、32、42-47が非空白で占有されることはありません(私が数えることができると仮定して)。したがって、そのセットの補数は、データが存在しなければならない列位置のセットです。したがって、 foreach 行、非空白の各ブロックは、上記で特定された一連の位置 (つまり、補完セット) から正確に 1 つの列に収まります。私はPythonでコーディングしたことがないので、ふるいアプローチを使用して列区切りがテキスト内にある場所を識別し、正確にそれらのスペース文字が単一のタブに置き換えられた新しいテキストファイルを生成するTCLスクリプトが添付されています-つまり. 10-16 は 1 つのタブに置き換えられ、23-24 は別のタブに置き換えられます。結果のファイルはタブで区切られています。つまり、簡単なケースです。私は、ex.txt というテキストファイルにコピーされた、あなたの小さなケースデータに対してのみ試したことを告白します。出力は ex_.txt になります。見出しにスペースが含まれている場合にも問題が発生する可能性があると思います。列区切りがテキスト内にあり、それらのスペース文字が単一のタブに置き換えられた新しいテキストファイルを生成します。10-16 は 1 つのタブに置き換えられ、23-24 は別のタブに置き換えられます。結果のファイルはタブで区切られています。つまり、簡単なケースです。私は、ex.txt というテキストファイルにコピーされた、あなたの小さなケースデータに対してのみ試したことを告白します。出力は ex_.txt になります。見出しにスペースが含まれている場合にも問題が発生する可能性があると思います。列区切りがテキスト内にあり、それらの空白文字が単一のタブに置き換えられた新しいテキストファイルを生成します。10-16 は 1 つのタブに置き換えられ、23-24 は別のタブに置き換えられます。結果のファイルはタブで区切られています。つまり、簡単なケースです。私は、ex.txt というテキストファイルにコピーされた、あなたの小さなケースデータに対してのみ試したことを告白します。出力は ex_.txt になります。見出しにスペースが含まれている場合にも問題が発生する可能性があると思います。

お役に立てれば！

set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne " "} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied "positions": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts "occupied: $datacols"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts "col break starts at $start, ends at $end";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file, replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ]
  }
  puts "newline is $line"
  puts $fh $line
}
close $fh

python - PythonでのExcelのようなテキストのインポート：固定幅の列を自動的に解析します

1 に答える 1

Related

Reference