データのサンプル行がいくつかあるとしましょう
site1^http://article1.com?datacoll=5|4|3|2|1&test=yes
site1^http://article1.com?test=yes
site1^http://article1.com?datacoll=5|4|3|2|1&test=yes
次のようなテーブルを作成したいので、テーブルのクリックログを作成します (サイト名文字列、URL 文字列) '^' で終わる ROW 形式の区切りフィールド。
ご覧のとおり、url パラメータに抽出したいデータがいくつかあります。つまり、datacoll=5|4|3|2|1 です。
また、パイプで区切られた個々の要素を操作したいので、グループ化して、たとえば、この場合は 2 行になる "4" の 2 番目の位置を持つ URL の数を示すことができます。したがって、この場合、解析してクエリで使用したい追加データを含む「url」フィールドがあります。
問題は、ハイブでそれを行う最良の方法は何ですか?
ありがとう!