google-bigquery - BigQuery でのテキストマッチング用のネストされたクエリ

Question

私が持っているツイートのデータセットで実行しようとしているテキストの一致に対して、ネストされたクエリを実行する方法があるかどうか疑問に思っていました。BigQuery に、収集したさまざまな株についてのツイートを含むテーブルがあり、各ツイートのテキストに含まれる単語に基づいてそのテーブルをセグメント化したいと考えています。

私はセンチメントディクショナリを持っています (実際には、各テーブルに感情に関連する単語がリストされているテーブルのグループです。肯定的な感情を表す単語用のテーブルが 1 つ、否定的な感情、不確かな感情などを表すテーブルがあります)。次のように:

SELECT text AS bullish_tweets
FROM bigtweettable
WHERE text CONTAINS (SELECT words FROM table_x);

BigQuery がその種のクエリを許可しているかどうか、または許可できる関数があるかどうかはわかりませんでした。私がセンチメントディクショナリで使用しているこれらのテーブルには、それぞれ数百行から数千行の行があるため、これを知っておくとよいでしょう。

どうもありがとう。

score 1 · Accepted Answer

つぶやきが単語ごとに区切られていない限り、あなたが求めていることを実行する方法を私が思いつくことはできません。ツイートを前処理して入力内の単語を分割すると、単語を表す繰り返しフィールドを作成できます。次に、クエリを実行できます。

SELECT text as bullish_tweets 
FROM bigtweettable
WHERE tweet_word IN (SELECT words from table_x)

bigtweettable のスキーマは Field : type : mode text : string : nullable tweet_word : string : repeat のようなものになります

tweet_word が繰り返された場合、CSV は繰り返し値をサポートしていないため、インポートを JSON として行う必要があります。または、ツイート内の単語ごとにテキストを事前に平坦化して繰り返すこともできます。

google-bigquery - BigQuery でのテキスト マッチング用のネストされたクエリ

1 に答える 1

Related

Reference

google-bigquery - BigQuery でのテキストマッチング用のネストされたクエリ