1

シナリオ: ルックアップ テーブルを作成し (入力は約 50 Mb の JSON ファイル)、メモリにキャッシュして、入力ファイルの各行 (各入力ファイルで約 10000 データ ポイント) の処理中にルックアップできるようにします。

問題: spark の dataframe.filter(...).select(...) メソッドは順次検索またはハッシュ検索を実行しますか? この場合、データをより速く取得するにはどうすればよいでしょうか? また、インデックスを作成する必要があるのか​​ 、それともハッシュテーブルを作成する必要があるのか​​ 疑問に思っていました(必要な場合、データフレームに対してどのように行われたのかわかりません)。

4

1 に答える 1

1

私が知る限り、どちらでもありません。Select in DataFrames は、選択した列のみを投影します。特定のレコードを選択するわけではないため、検索アルゴリズムは必要ありません。

標準 SQL の WHERE 句で行うように特定のレコードを取得するには、select()関心のある列をメソッドでフィルター処理する必要がありますfilter()

于 2015-09-14T11:55:33.033 に答える