如何在mysql中实现数据去重_mysql数据去重实战方法
#技术教程 发布时间: 2025-12-20
MySQL数据去重需按场景选择方法:查重用GROUP BY或DISTINCT;删重推荐ROW_NUMBER()(8.0+)或自连接;预防重复须加唯一索引并配合INSERT IGNORE/ON DUPLICATE KEY UPDATE。
MySQL中数据去重不能靠“一键清除”,得根据场景选对方法:是临时查重、保留一条、彻底删重,还是避免重复写入。核心思路就两条:用GROUP BY或DISTINCT查出唯一值;用ROW_NUMBER()(8.0+)或自连接/子查询删掉冗余行。
查重:快速找出重复记录
先确认哪些字段组合存在重复,再决定怎么处理。常用写法:
-
统计重复次数:
SELECT name, email, COUNT(*) FROM users GROUP BY name, email HAVING COUNT(*) > 1; -
查出所有重复行的完整数据:
SELECT * FROM users WHERE (name, email) IN (SELECT name, email FROM users GROUP BY name, email HAVING COUNT(*) > 1);
去重保留一条:删除多余但留最新/最旧的一条
适用于已有重复,需清理历史数据。推荐用窗口函数(MySQL 8.0+)更安全清晰:
-
保留id最大(通常是最新的):
DELETE t1 FROM users t1 INNER JOIN users t2 WHERE t1.name = t2.name AND t1.email = t2.email AND t1.id -
用窗口函数精准控制(推荐):
DELETE FROM users WHERE id IN (SELECT id FROM (SELECT id, R
OW_NUMBER() OVER (PARTITION BY name, email ORDER BY id DESC) rn FROM users) t WHERE rn > 1);
查询时自动去重:不改原表,只取唯一结果
适合报表、接口等只读场景,简单高效:
-
基础去重:
SELECT DISTINCT name, email FROM users; -
配合聚合取关键信息:
SELECT name, email, MAX(created_at) as latest_time FROM users GROUP BY name, email;
预防重复:从源头避免写入重复数据
比事后清理更重要。关键在约束和逻辑:
-
加唯一索引(最有效):
ALTER TABLE users ADD UNIQUE INDEX uk_name_email (name, email);插入重复时直接报错 -
用
INSERT IGNORE或ON DUPLICATE KEY UPDATE处理冲突,例如:INSERT INTO users (name, email) VALUES ('张三','z@x.com') ON DUPLICATE KEY UPDATE updated_at = NOW(); -
业务层校验+数据库约束双保险,比如注册前先
SELECT检查,再插入,同时表上仍有唯一索引兜底
上一篇 : SQL统计周期自动生成_SQL动态日期维度构建
下一篇 : mysql自动提交机制是什么_mysql自动提交原理说明
-
SEO外包最佳选择国内专业的白帽SEO机构,熟知搜索算法,各行业企业站优化策略!
SEO公司
-
可定制SEO优化套餐基于整站优化与品牌搜索展现,定制个性化营销推广方案!
SEO套餐
-
SEO入门教程多年积累SEO实战案例,从新手到专家,从入门到精通,海量的SEO学习资料!
SEO教程
-
SEO项目资源高质量SEO项目资源,稀缺性外链,优质文案代写,老域名提权,云主机相关配置折扣!
SEO资源
-
SEO快速建站快速搭建符合搜索引擎友好的企业网站,协助备案,域名选择,服务器配置等相关服务!
SEO建站
-
快速搜索引擎优化建议没有任何SEO机构,可以承诺搜索引擎排名的具体位置,如果有,那么请您多注意!专业的SEO机构,一般情况下只能确保目标关键词进入到首页或者前几页,如果您有相关问题,欢迎咨询!
OW_NUMBER() OVER (PARTITION BY name, email ORDER BY id DESC) rn FROM users) t WHERE rn > 1);