次のような JSON ファイルで Apache Drill を (初めて) 使用しようとしています。
{
"Key1": {
"htmltags": "<htmltag attr1='bravo' /><htmltag attr2='delta' /><htmltag attr3='charlie' />"
},
"Key2": {
"htmltags": "<htmltag attr1='kilo' /><htmltag attr2='lima' /><htmltag attr3='mike' />"
},
"Key3": {
"htmltags": "<htmltag attr1='november' /><htmltag attr2='foxtrot' /><htmltag attr3='sierra' />"
}
}
私の最初のクエリは、drill: の hello world でSELECT * FROM DataFile.json
、列Key1
, Key2
,が返されましたKey3
。それらには 1 つの行しかなく、エントリが含まれていました:
"<htmltag attr1='bravo' /><htmltag attr2='delta' /><htmltag attr3='charlie' />"
[つまり、エントリのみKey1.htmltags
]。
2 つの質問があります。
- 各キーに 3 つの異なる値のエントリがあったのに、1 行しか返されなかったのはなぜですか?
- KVGEN/FLATTEN 関数を使用して上記の「htmltags」内の文字列を取得した後、HTML タグをさらに掘り下げる (分析してデータを抽出する) 方法はありますか?