シナリオ: ルックアップ テーブルを作成し (入力は約 50 Mb の JSON ファイル)、メモリにキャッシュして、入力ファイルの各行 (各入力ファイルで約 10000 データ ポイント) の処理中にルックアップできるようにします。
問題: spark の dataframe.filter(...).select(...) メソッドは順次検索またはハッシュ検索を実行しますか? この場合、データをより速く取得するにはどうすればよいでしょうか? また、インデックスを作成する必要があるのか 、それともハッシュテーブルを作成する必要があるのか 疑問に思っていました(必要な場合、データフレームに対してどのように行われたのかわかりません)。