フィルターに失敗するレコードを読み取る必要がないため、明らかに速度が向上します。Spark がサポートしていることはわかりますが、Scalding を使用した方法に関するドキュメントは見つかりませんでした。
質問する
412 次
2 に答える
2
残念ながら、scalding-parquet ではまだこれをサポートしていません。Tapad では、scalding での Predicate サポートの実装に取り組み始めました。何かが機能するようになったら、それを共有します。
parquet で avro レコードを読み取り/保存できる独自の ParquetAvroSource を実装しました。列射影を使用して、scalding ジョブに必要な列/フィールドのみを読み取ることができます。この機能を使用すると、ジョブが入力バイトの 1% のみを読み取る場合があります。
于 2014-08-10T15:39:20.130 に答える