ORC
Athena に Serde とのテーブルがあります。テーブルには、 という名前の文字列列が含まれていますgreeting_message
。null値を含めることもできます。テーブル内で特定のテキストがパターンとして含まれている行の数を見つけたいと考えています。
私のサンプルデータが以下のようになっているとしましょう:
|greeting_message |
|-----------------|
|hello world |
|What's up |
| |
|hello Sam |
| |
|hello Ram |
|good morning, hello |
| |
|the above row has null |
| Good morning Sir |
上記のテーブルでは、合計 10 行あることがわかります。そのうちの 7 つは null 値ではなく、そのうちの 3 つは null/空の値しかありません。
特定の単語が含まれる行の割合を知りたいです。
たとえば、単語を考えてみましょうhello
。4 つの行に存在するため、そのような行のパーセンテージは 4/10、つまり 40% です。
別の例: 単語morning
は 2 つのメッセージに存在します。したがって、そのような行の割合は 2/10、つまり 20% です。
null
分母の数も考慮していることに注意してください。