各位程序员同学有没有遇到过,当oracle分组后引起数据重复,今天就给大家梳理下去重复数据的方法
1、Oracle的row_number() over函数消除重复的记录 (此种适用于通过条件排序后再删除,即对删除的记录有条件限制,而不仅是rowid最大或最小或重复的随意一条)
select row_number()over(partition by a order by b) as no,a,b from test; 标识重复数据
delete from test where b in (select b from (select row_number()over(partition by a order by b) as no,a,b from test) where no>1); 通过标识查出来删除
2、通过rowid来判断
select max(rowid) from test group by id having count(*)>1; --找出重复记录中rowid最大的记录
delete from test where rowid not in (select max(rowid) from test group by id having count(*)>1); --通过rowid筛选,去掉其他重复的数据(此为筛选删除,会保留rowid最大的一条) ****(注意:此语句只会保留重复数据中rowid最大的,重复数据中其他的rowid及非重复数据都会被删除)
3、使用分组函数group by
select id,name from test group by id,name having count(id)>1;
delete from test where id in (select id from (select id,name from test group by id,name having count(id)>1)); --注意,这会删除所有重复的数据,不会保留其中一条
4、distinct 对于小的表比较有用,只能放在开头
select distinct name from test;
------------------------------------------------
删除表中多余的重复记录(多个字段),只留有rowid最小的记录
delete from 表 a where (a.Id,a.seq) in (select Id,seq from 表 group by Id,seq having count(*) > 1) and rowid not in (select min(rowid) from 表 group by Id,seq having count(*)>1)
注:在进行删除时,不用rowid not in 则会将重复的都删除,一条都不会保留。
查询重复记录,使用group by 分组,如:select name from test group by name having count(*)>1;
删除重复记录时,需要使用两个条件:先选出再使用rowid筛选删除,如delete from test where id in (select id from (select name,id from test group by name,id having(count(id)>1))) and rowid not in (select max(rowid) from test group by name,id having count(*)>1);
假如删除时,不使用查询重复记录的条件,直接使用rowid删除,有什么区别?
区别:不先查询出重复记录,直接使用not in rowid删除,只会保留重复记录的其中一条,但只有一条的记录(即不重复的数据)也会被删除。即除了重复记录的一条,其他(重复的其他记录及未重复的记录)都会被删除,不对。
结论:在进行重复数据删除操作时,需要加上两个条件,如上所示,一个为查找所有的重复记录,rowid只是用于保留重复数据中的一条