apache-spark - spark dataframe.filter(...).select(...) は順次検索またはハッシュアルゴリズムを使用しますか?

Question

シナリオ: ルックアップテーブルを作成し (入力は約 50 Mb の JSON ファイル)、メモリにキャッシュして、入力ファイルの各行 (各入力ファイルで約 10000 データポイント) の処理中にルックアップできるようにします。

問題: spark の dataframe.filter(...).select(...) メソッドは順次検索またはハッシュ検索を実行しますか? この場合、データをより速く取得するにはどうすればよいでしょうか? また、インデックスを作成する必要があるのか、それともハッシュテーブルを作成する必要があるのか疑問に思っていました（必要な場合、データフレームに対してどのように行われたのかわかりません）。

score 1 · Accepted Answer

私が知る限り、どちらでもありません。Select in DataFrames は、選択した列のみを投影します。特定のレコードを選択するわけではないため、検索アルゴリズムは必要ありません。

標準 SQL の WHERE 句で行うように特定のレコードを取得するには、select()関心のある列をメソッドでフィルター処理する必要がありますfilter()。

apache-spark - spark dataframe.filter(...).select(...) は順次検索またはハッシュアルゴリズムを使用しますか?

1 に答える 1

Related

Reference