正規表現 SerDe を使用して、テキスト ファイルからハイブ テーブルを作成しようとしています。私は簡単に始めて、テキスト ドキュメント内の各単語を行に解析したいだけです。各行には 1 つの列があり、それが単語です。
私が使用している正規表現は ([a-zA-z]+) です
そして、これは私がハイブに発行しているcreate tableコマンドの後半です.
行フォーマット SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "([a-zA-Z]+)", "output.format.string" = "% 1$s" ) テキストファイルとして保存されます。
現在、テーブルにはほとんどすべて NULL が含まれています。
どんな助けでも素晴らしいでしょう、ありがとう!