0

ORCAthena に Serde とのテーブルがあります。テーブルには、 という名前の文字列列が含まれていますgreeting_messagenull値を含めることもできます。テーブル内で特定のテキストがパターンとして含まれている行の数を見つけたいと考えています。

私のサンプルデータが以下のようになっているとしましょう:

|greeting_message |
|-----------------|
|hello world      |
|What's up        |
|                 |
|hello Sam        |
|                 |
|hello Ram        |
|good morning, hello |
|                 |
|the above row has null |
| Good morning Sir |

上記のテーブルでは、合計 10 行あることがわかります。そのうちの 7 つは null 値ではなく、そのうちの 3 つは null/空の値しかありません。

特定の単語が含まれる行の割合を知りたいです。

たとえば、単語を考えてみましょうhello。4 つの行に存在するため、そのような行のパーセンテージは 4/10、つまり 40% です。

別の例: 単語morningは 2 つのメッセージに存在します。したがって、そのような行の割合は 2/10、つまり 20% です。

null分母の数も考慮していることに注意してください。

4

2 に答える 2