hive 中 group by 和 distinct 孰优孰劣?
首先声明一下,hive是什么:
hive 不是数据库,hive 只是一个数据仓库工具,可以用来查询、转化和加载数据,是可以调用 mapreduce 任务、用类 mysql 语法查询HDFS数据的一个工具。
再来说 mapreduce 是什么,mapreduce 是分而治之的一种编程模型,适用于大规模数据集的并行计算,当处理一个查询任务时,先调用 map 任务并行处理,最后用 reduce 任务归约结果。
那么对于一张200w+的表,我们来看一下group by 和 distinct 的执行过程:
