html - JSON ファイル内の文字列内に埋め込まれた HTML を Apache Drill でクエリするにはどうすればよいですか?

Question

次のような JSON ファイルで Apache Drill を (初めて) 使用しようとしています。

{
    "Key1": {
      "htmltags": "<htmltag attr1='bravo' /><htmltag attr2='delta' /><htmltag attr3='charlie' />"
    },
    "Key2": {
      "htmltags": "<htmltag attr1='kilo' /><htmltag attr2='lima' /><htmltag attr3='mike' />"
    },
    "Key3": {
      "htmltags": "<htmltag attr1='november' /><htmltag attr2='foxtrot' /><htmltag attr3='sierra' />"
    }
}

私の最初のクエリは、drill: の hello world でSELECT * FROM DataFile.json、列Key1, Key2,が返されましたKey3。それらには 1 つの行しかなく、エントリが含まれていました: "<htmltag attr1='bravo' /><htmltag attr2='delta' /><htmltag attr3='charlie' />"[つまり、エントリのみKey1.htmltags]。

2 つの質問があります。

各キーに 3 つの異なる値のエントリがあったのに、1 行しか返されなかったのはなぜですか?
KVGEN/FLATTEN 関数を使用して上記の「htmltags」内の文字列を取得した後、HTML タグをさらに掘り下げる (分析してデータを抽出する) 方法はありますか?

score 0 · Accepted Answer

残念ながら、Drill はこの仕事に適したツールではないようです (Homebrew でこの記事を書いている時点では v1.1.0)。

複数の列があるのに行が 1 つしかないのは、システムにバグがあるようです。レポートを提出しました: https://issues.apache.org/jira/browse/DRILL-4102
もう一度ドキュメントを精査しましたが、HTML または XML をネイティブに分析するツールはありません。このための文字列操作に依存することは、私が好きな作業ではありません。

そこで、XML パーサーや DOM ツリークローラーなどを使用し、bash 文字列関数を使用して対象のタグ文字列 awk/tee を抽出します。

html - JSON ファイル内の文字列内に埋め込まれた HTML を Apache Drill でクエリするにはどうすればよいですか?

2 に答える 2

Related

Reference