mongodb - go と mgo で mongodump の出力を読む

Question

mongodump によって生成されたコレクションダンプを読み込もうとしています。ファイルは数ギガバイトなので、段階的に読みたいと思います。

次のようなもので最初のオブジェクトを読み取ることができます。

buf := make([]byte, 100000)
f, _ := os.Open(path)
f.Read(buf)

var m bson.M
bson.Unmarshal(buf, &m)

ただ、どれだけbufを消費したか分からないので、次の読み方が分かりません。

これはmgoで可能ですか？

score 4 · Accepted Answer

mgobson.Unmarshal()だけを使用するだけでは十分ではありません。この関数は[]byte、単一のドキュメントを表すを取得し、それを値に非整列化するように設計されています。

ダンプファイルから次のドキュメント全体を読み取ることができる関数が必要になります。その後、結果をに渡すことができますbson.Unmarshal()。

encoding/jsonこれをorと比較すると、からドキュメントを消費する型がencoding/gobあれば便利でしょう。mgo.bsonReaderio.Reader

とにかく、mongodump のソースから、ダンプファイルは単なる一連の bson ドキュメントであり、ファイルヘッダー/フッターや明示的なレコードセパレータはないようです。

BSONTool::processFileは、mongorestore がダンプファイルを読み取る方法を示しています。彼らのコードは 4 バイトを読み取ってドキュメントの長さを判断し、そのサイズを使用して残りのドキュメントを読み取ります。サイズプレフィックスがbson 仕様の一部であることを確認しました。

これが Go でどのように行われるかを示すPlayground の例を次に示します。長さフィールドを読み取り、ドキュメントの残りを読み取り、非整列化し、繰り返します。

score 3 · Accepted Answer

このメソッドFile.Readは、読み取ったバイト数を返します。

File.Read

Read は、File から最大 len(b) バイトを読み取ります。読み取ったバイト数と、エラーがあればそれを返します。EOF は、ゼロカウントによって通知され、err は io.EOF に設定されます。

したがって、読み取った戻りパラメータを格納するだけで、読み取ったバイト数を取得できます。

n, err := f.Read(buf)

score 2 · Accepted Answer

私は次のコードでそれを解決することができました：

for len(buf) > 0 {
    var r bson.Raw
    var m userObject

    bson.Unmarshal(buf, &r)
    r.Unmarshal(&m)

    fmt.Println(m)

    buf = buf[len(r.Data):]
}

mongodb - go と mgo で mongodump の出力を読む

4 に答える 4

Related

Reference