2

フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。

4

2 に答える 2

2

残念ながら、scalding-parquet ではまだこれをサポートしていません。Tapad では、scalding での Predicate サポートの実装に取り​​組み始めました。何かが機能するようになったら、それを共有します。

parquet で avro レコードを読み取り/保存できる独自の ParquetAvroSource を実装しました。列射影を使用して、scalding ジョブに必要な列/フィールドのみを読み取ることができます。この機能を使用すると、ジョブが入力バイトの 1% のみを読み取る場合があります。

于 2014-08-10T15:39:20.130 に答える