フリーベースのデータ ダンプを使用しようとしていますが、Python でファイルを読み取る際に問題があるようです。私のプログラムはすべての行を読み取れないようです。
def test2():
count=0
for line in open(FREEBASE_TOPIC):
count+=1
return count
def test3():
count=0
for line in open(FREEBASE_QUAD):
count+=1
return count
if __name__ == "__main__":
print "FREEBASE TOPIC - NR LINES:",test2()
print "FREEBASE QUAD - NR LINES:",test3()
結果は次のようになります。
FREEBASE TOPIC - ITR TIME: 1.21000003815
FREEBASE TOPIC - NR LINES: 1643010
FREEBASE QUAD - ITER TIME: 0.797000169754
FREEBASE QUAD - NR LINES: 3155131
これですべてです。フリーベース全体を含めるには数行しかないようです。そして、1 つの 33GB ファイルと別の 5GB ファイルを 2 秒で反復処理する方法がわかりません。
なにが問題ですか?ダウンロード プロセス中に問題が発生した場合に備えて、ファイルを再度ダウンロードしていますが、接続に数十年かかるため、その間に質問します。ファイルサイズは正しいです。いくつかの行を印刷しましたが、正しく見えます。