を読んでいてApache Crunch documentation
、次の文を見つけました。
データはファイルシステムからストリーミング方式で読み込まれるため、マテリアライゼーションを使用してクライアントに読み込むために、PCollection の内容がメモリに収まる必要はありません。
どういう意味なのか知りたいread in from the filesystem in a streaming fashion
のですが、他の種類のデータの読み取り方法との違いを教えていただければ幸いです。
この概念は、Spark などの他のツールにも当てはまると思います。