output1.txt と output2.txt という、それぞれ数万行の 2 つのファイルがあります。両方のファイルを反復処理し、2 つのファイル間で異なる行の行 (および内容) を返したいと考えています。それらはほとんど同じであるため、違いを見つけることができません (filecmp.cmp は false を返します)。
23746 次
3 に答える
4
7.4. difflib — デルタを計算するためのヘルパー
バージョン 2.1 の新機能。
このモジュールは、シーケンスを比較するためのクラスと関数を提供します。たとえば、ファイルの比較に使用でき、HTML、コンテキスト、および統合差分など、さまざまな形式で差分情報を生成できます。ディレクトリとファイルの比較については、filecmp モジュールも参照してください。
于 2013-07-23T00:39:31.093 に答える
2
順序を気にしない限り、次を使用できます。
with open('file1') as f:
t1 = f.read().splitlines()
t1s = set(t1)
with open('file2') as f:
t2 = f.read().splitlines()
t2s = set(t2)
#in file1 but not file2
print "Only in file1"
for diff in t1s-t2s:
print t1.index(diff), diff
#in file2 but not file1
print "Only in file2"
for diff in t2s-t1s:
print t2.index(diff), diff
編集:順序を気にし、それらがほとんど同じである場合は、コマンドを使用しないのはなぜdiff
ですか?
于 2013-07-23T00:40:25.410 に答える
1
次のようなことができます。
import difflib, sys
tl=100000 # large number of lines
# create two test files (Unix directories...)
with open('/tmp/f1.txt','w') as f:
for x in range(tl):
f.write('line {}\n'.format(x))
with open('/tmp/f2.txt','w') as f:
for x in range(tl+10): # add 10 lines
if x in (500,505,1000,tl-2):
continue # skip these lines
f.write('line {}\n'.format(x))
with open('/tmp/f1.txt','r') as f1, open('/tmp/f2.txt','r') as f2:
diff = difflib.ndiff(f1.readlines(),f2.readlines())
for line in diff:
if line.startswith('-'):
sys.stdout.write(line)
elif line.startswith('+'):
sys.stdout.write('\t\t'+line)
印刷 (400 ミリ秒):
- line 500
- line 505
- line 1000
- line 99998
+ line 100000
+ line 100001
+ line 100002
+ line 100003
+ line 100004
+ line 100005
+ line 100006
+ line 100007
+ line 100008
+ line 100009
行番号が必要な場合は、enumerate を使用します。
with open('/tmp/f1.txt','r') as f1, open('/tmp/f2.txt','r') as f2:
diff = difflib.ndiff(f1.readlines(),f2.readlines())
for i,line in enumerate(diff):
if line.startswith(' '):
continue
sys.stdout.write('My count: {}, text: {}'.format(i,line))
于 2013-07-23T03:50:14.103 に答える