标签: Hive

hive 中 group by 和 distinct 孰优孰劣？

首先声明一下，hive是什么：

hive 不是数据库，hive 只是一个数据仓库工具，可以用来查询、转化和加载数据，是可以调用 mapreduce 任务、用类 mysql 语法查询HDFS数据的一个工具。
再来说 mapreduce 是什么，mapreduce 是分而治之的一种编程模型，适用于大规模数据集的并行计算，当处理一个查询任务时，先调用 map 任务并行处理，最后用 reduce 任务归约结果。

那么对于一张200w+的表，我们来看一下group by 和 distinct 的执行过程：