だから私はまだこれに従うのに苦労しています:http ://code.google.com/p/dkpro-core-asl/wiki/MyFirstDKProProject
私は非常に奇妙なMD5の問題で別の場所に固執していますが、Eclipse / Antがmd5sum(cygwin)やPythonなどを使用して計算できるmd5とは異なるmd5を計算する理由がわかりません!
Eclipse / Ant msg:
BUILD FAILED
D:\eclipseWorkspace\maven.1334761781732\branches\1.2.x\de.tudarmstadt.ukp.dkpro.core.treetagger\src\scripts\build.xml:34: The following error occurred while executing this line:
D:\eclipseWorkspace\maven.1334761781732\branches\1.2.x\de.tudarmstadt.ukp.dkpro.core.treetagger\src\scripts\build.xml:311: The following error occurred while executing this line:
D:\eclipseWorkspace\maven.1334761781732\branches\1.2.x\de.tudarmstadt.ukp.dkpro.core.treetagger\src\scripts\build.xml:451: MD5 checksum mismatch for [la-tagger-little-endian.par].
Please verify the checksum and if necessary update this script.
Expected: f959f8633ef842f069f0331ad19dc8b4
Actual : bde1f6a63b2c5a658ba25a8eb90832a8
わかりました。FTPでファイルが変更された可能性があるため、これは可能です。これがANTのbuild.xmlファイルの一部です。
<target name="la">
<property name="version.la" value="2011050700"/>
<install-model-file url="ftp://ftp.ims.uni-stuttgart.de/pub/corpora/latin-par-linux-3.2.bin.gz"
type="tagger" endianness="little-endian" language="la" encoding="ISO-8859-1"
md5="f959f8633ef842f069f0331ad19dc8b4"/>
</target>
物事が私にとって奇妙になるところはそこにあります:
CYGWINを使用する(filezilla、バイナリモード、または自動でFTP経由でファイルを手動でダウンロードするのはもちろんASCIIではありません):
$ md5sum latin-par-linux-3.2.bin.gz
e77493eed28857bf93aca91c2a6e5a9b *latin-par-linux-3.2.bin.gz
Pythonを使用する:
import urllib
import hashlib
data = urllib.urlopen("ftp://ftp.ims.uni-stuttgart.de/pub/corpora/latin-par-linux-3.2.bin.gz").read()
md5 = hashlib.md5()
md5.update(data)
print md5.hexdigest()
e77493eed28857bf93aca91c2a6e5a9b
また
def md5_for_file(filePath):
md5 = hashlib.md5()
file = open(filePath, 'rb')
while True:
data = file.read(8192)
if not data:
break
md5.update(data)
file.close()
return md5.hexdigest()
print md5_for_file(r"D:\ftp.ims.uni-stuttgart.de.pub.corpora.20120419\latin-par-linux-3.2.bin.gz")
e77493eed28857bf93aca91c2a6e5a9b
また、Webのフリーウェアを使用してMD5を計算すると、それらはすべて互いに一致しますが、ANTが「実際の」と計算するものとは異なります。