私は正常に動作しているように見えたバイト配列へのシリアル化のために com.twitter.chill.KryoInjection を使用して、風 SparseVectors を HBase に保存しています。しかし、HBase からベクトルを読み戻した後、一部の値が異なる/欠落していることに気付きました。ここで、HBase がデータをエンコードする方法と、データの突然変異がどこに現れるか (保存/エンコード/おそらくデータの圧縮/読み取り??) を知りたいと思っています。
HBase に保存する直前に、HBase に保存されているベクトルと相関するベクトルを比較して、それらが等しいかどうかを確認したかったのですが (読み取りが問題になる可能性があります)、これを行う方法の問題に遭遇しました。HBase シェルでのベクトルの表現は次のようになります。
列=d:ベクター、タイムスタンプ=1431936909897、値=\x01\x00breeze.linalg.SparseVector$mcD$s\xF0\x01\x00\x01\x01breeze.collection.mutable.SparseArra\xF9\x01\x1A\x01\x02 [\xC4\x01\x0 E?\xF0\x00\x00\x00\x00\x00\x00?\xC5-\xF2\x15\x85Z:?\xD6,{ci\xA8\x08@\x06P\xE3\ x85\xACy'?\xEB\xA2\x09\xAA\xA3\xAD\x19?\xE4M\xCB\x98\xB8\x00f?\xE8\x00\x00\x00\x00\x00\x00@"\xA4Z\ x1C\xAC\x081?\xEB\xB0\xE3\xCD\x9AR&?\xE4\xB7\xF7K`\xDD)?\xEA\xD3\xC0\x06\x14\xEC\xF7?\xF3\x01]\xE8R46 ?\xC45\x03\x97\xE5\x0E\x8D\x0A\x00\x00\x00\x00\x00\x00\x00\x00\x01\x0E\x02\ x0A0~\xB2\x01\xCC\x01\xBA \x02\xD22\xE4a\xDA\xB6\x0A\xD0\x8B&\xC0\xC0)\xDA\xCC\x05\x01\xC0\x84=\x01\x03breeze.storage.ゼロ$ダブルゼロ\xA4\x01\x01\x03\x06
これを、ベクトルをテキスト ファイルにシリアル化するときに取得する「通常の」バイト コードと比較するにはどうすればよいですか? 誰かがすでに同様の問題を抱えていて、アドバイスを与えることができますか?