在平时工作中,你可以拆解出来你想要什么,但是并不知道sql怎么去写,那么此次我就记录下我拆解了我想要的样子,并对照自己的需求去分步骤写出sql语句,也给大家分享下,思路与解决办法。
需求:把数据表A中近半年城市使用最多的top10记录,同步到新表:数据表B
测试sql需求拆解:
1、数据表A中近半年的数据,且去除已经删除的记录,一个开始地城市、一个结束地城市,这两个字段进行合并。---切记,这里要把已经删除的记录摒弃掉。
2、合并后的城市要按照城市进行分组,并统计出每个城市出现的次数。
3、对分组后的城市进行去重操作,只保留一条记录对应这个城市出现的次数即可。
4、取出当前用户城市出现次数top10的记录。--此排名如果出现城市次数相同的就并列排名,且不占用名次。如:北京10次,上海8次,南京8次,安徽7次;排名即:北京第一、上海第二、南京第二、安徽第三。
sql用到的函数:
1、合并表中2个字段:UNION ALL
2、分组函数并计数:count(1) over(PARTITION BY 要分组的字段名)
3、去重,只保留一条记录:DISTINCT(去重字段名)
4、top10的城市,按照计数数量从高到低倒叙排列,计数相同并列排名,不占用名次: dense_rank() over(order by 计数数量字段 desc)
ps:要注意以下两种情况:
<1>、如果要求:城市排名,计数相同的并列排名,但是并列的城市也是占用了名次的话,这里使用函数:rank() over。
<2>、如果要求:不需要考虑城市排名并列的情况,根据条件查询出来的数值相同也是进行连续排名,这里使用函数:row_number() over
基于以上进行sql整合:
<1> 此次排名是用的:dense_rank() over
图一(整合sql)
整合后,我们来看下结果:
图2(整合sql执行结果 dense_rank() over )
<2>第二次我们使用rank() over看下区别:
图三( rank() over 的sql及执行结果)
<3>第三次我们是使用row_number() over看下区别:
图四( row_number() over 的sql及执行结果)
自此,分享到这里就结束了,复杂的分组去重并排名就解决了。学以致用,你也试试看吧。Over