問題の概要- int に 100 を含む csv 文字列内の要素の論理的な組み合わせを検索する: (すべてのデータは HDFS に保存され、Java M/R を使用して処理されます)
例 -
input string - 5,7,1,19001,234567,123 (unsorted csv list)
入力文字列でこれらの論理 AND/OR の組み合わせを検索します -
123 and 1
19001 or 1 or 7
全体的なコンテキスト-
HDFS ファイルとして毎日 1 億件を超えるレコードを含む入力データ セットがあります。入力ファイルには、long int の csv リストである InputIds という列があります。
したがって、1行は次のようになります(4番目の列を inputIds と呼んでいます)
1\t2\t3\t45679,7890,1234567\t90\t100\t101.0.
これで、ユーザーが検索文字列を作成して入力データを検索できるシステムができました。何かのようなもの -
userCreatedID1 - 7890 and 101
userCreatedID2 - 7890 or 90
そのため、すべての行の InputIds ですべての UserCreatedIds を検索します。
ありがとう