1

CDH4.4を使用しています。現在、avro を介して hbase の単一の列にレコードをシリアル化するアプリを実行しています。このテーブルの現在の solr インデックスを solrcloud に移動中なので、MapReduceIndexerTool をテストして、テーブル全体の一括インデックス作成を行います。現在、「extractHBaseCells」を使用して HBase からレコードを読み取る非常に単純な morphlines ファイルがあります。

これをトレーサーの概念実証として設定し、rowkey => id のインデックスを作成し、avro blob を別のフィールドに詰め込むだけで、HBase から SolrCloud のコレクションにデータを取得でき、それが機能することを確認しました。しかし、私は avro を解析し、それらの値を solrdocuments の独自のフィールドに貼り付けてから、solrcloud に送信したいと考えています。しかし、「extractHBaseCells」の性質がこれを妨げているようです。モーフラインの avro コマンドに流れ込む可能性のある、より一般的な出力を生成する hbase リーダー コマンドがあれば、私は自分の問題を解決できると確信しています。

HBase に格納されている avro を解析するための既知の回避策、またはこれに対処できるその他の morphlines コマンドはありますか?

4

2 に答える 2

2

avro 列だけを読み取り、extractAvroPaths を使用して avro を解析できますか?

http://cloudera.github.io/cdk/docs/0.6.0/cdk-morphlines/morphlinesReferenceGuide.html#extractAvroPaths

または最悪の場合、hbase avro 列を avro オブジェクトにキャスト/変換する Java アクション。

于 2014-02-18T23:46:58.797 に答える