网络编程
位置:首页>> 网络编程>> 数据库>> SQL对冗余数据的删除重复记录只保留单条的说明

SQL对冗余数据的删除重复记录只保留单条的说明

  发布时间:2024-01-17 07:24:11 

标签:SQL,冗余数据,删除重复记录

我们先看一下相关数据结构的知识。

在学习线性表的时候,曾有这样一个例题。

已知一个存储整数的顺序表La,试构造顺序表Lb,要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。
算法思路:
先把顺序表La的第一个元素付给顺序表Lb,然后从顺序表La的第2个元素起,每一个元素与顺序表Lb中的每一个元素进行比较,如果不相同,则把该元素附加到顺序表Lb的末尾。


public SeqList<int> Purge(SeqList<int> La)
{
SeqList<int> Lb = new SeqList<int>(La.Maxsize);
//将a表中的第1个数据元素赋给b表
Lb.Append(La[0]);
//依次处理a表中的数据元素
for (int i = 1; i <= La.GetLength() - 1; ++i)
{
int j = 0;
//查看b表中有无与a表中相同的数据元素
for (j = 0; j <= Lb.GetLength() - 1; ++j)
{
//有相同的数据元素
if (La[i].CompareTo(Lb[j]) == 0)
{
break;
}
}
//没有相同的数据元素,将a表中的数据元素附加到b表的末尾。
if (j > Lb.GetLength() - 1)
{
Lb.Append(La[i]);
}
return Lb;
}
}


如果理解了这个思路,那么数据库中的处理就好办了。

我们可以做一个临时表来解决问题


select distinct * into #Tmp from tableName
drop table tableName
select * into tableName from #Tmp
drop table #Tmp


发生这种重复的原因是表设计不周产生的,增加唯一索引列即可解决。

但是你说了,我不想增加任何字段,但这时候又没有显式的标识列,怎么取出标识列呢?(可以是序号列,GUID,等)

上个问题先不讲,先看看这个问题。

我们分别在三种数据库中看一下处理办法,就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.

1. SQL Server 2000 构造序号列

方法一:
SELECT 序号=
(SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号),
客户编号,公司名称 FROM 客户 AS b ORDER BY 1;
方法二:

SELECT 序号= COUNT(*),
a.客户编号, a.公司名称FROM 客户 AS a, 客户 AS b
WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;
2. SQL Server 2005 构造序号列

方法一:
SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户;

方法二:
WITH TABLE AS
(SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号, 客户编号,公司名称 FROM 客户)
SELECT * FROM TABLE
WHERE 序号 BETWEEN 1 AND 3;
3. Oracle 里 rowid 也可看做默认标识列
在Oracle中,每一条记录都有一个rowid,rowid在整个数据库中是唯一的,rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中,可能所有列的内容都相同,但rowid不会相同,所以只要确定出重复记录中那些具有最大rowid的就可以了,其余全部删除。


select * from test;select * from test group by id having count(*)>1select * from test group by idselect distinct * from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);扯远了,回到原来的问题,除了采用数据结构的思想来处理,因为数据库特有的事务处理,能够把数据缓存在线程池里,这样也相当于临时表的功能,所以,我们还可以用游标来解决删除重复记录的问题。
declare @max int,
@id int
declare cur_rows cursor local for select id ,count(*) from test group by id having count(*) > 1
open cur_rows
fetch cur_rows into @id ,@max
while @@fetch_status=0
begin
select @max = @max -1
set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么
delete from test where id = @id
fetch cur_rows into @id ,@max
end
close cur_rows
set rowcount 0 以上是闪电查阅一些资料写出的想法,有考虑不周的地方,欢迎大家指出。
0
投稿

猜你喜欢

  • 对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对
  • 问题你要通过网络连接发送和接受连续数据的大型数组,并尽量减少数据的复制操作。解决方案下面的函数利用 memoryviews 来发送和接受大数
  • 这篇文章主要介绍了Pytest mark使用实例及原理解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要
  • 在网络中传输数据时,为了防止网络拥塞,需限制流出网络的流量,使流量以比较均匀的速度向外发送,令牌桶算法就实现了这个功能, 可控制发送到网络上
  • 1、安装 python3sudo apt install python32、卸载 python2.7 (可选)sudo apt remove
  • 函数:len()1:作用:返回字符串、列表、字典、元组等长度2:语法:len(str)3:参数:str:要计算的字符串、列表、字典、元组等4
  • Python现在是最热门的人工智能语言,各种工具的支持如Google的Tensorflow,都是首选支持Python的。但是,与R语言不同,
  • 如何在庞大的数据中高效的检索自己需要的东西?本篇内容介绍了Python做出一个大数据搜索引擎的原理和方法,以及中间进行数据分析的原理也给大家
  • 1.相关基础python3中有两种字符串类型:str和bytespython编码问题可以参考文章str以unicode编码格式保存在内存所以
  • 前言:python提供了诸多的魔法方法,其中__setattr__()方法主要用于类实例进行属性赋值,其定义在Object类官方提供的说明如
  • 内容摘要:本文介绍了使用SQL语句修改数据记录的两种方法,一是使用rs.update,二是使用conn.Execute(sql),相信对初学
  • 写一个学生管理系统,最好用python。我都没学过python呢,只好开始临时抱佛脚,再到网上找找有没有例子看看,下面是我参照另一个博主写的
  • 本文实例讲述了php实现比较全的数据库操作类。分享给大家供大家参考。具体如下:<?php class database {  
  • 使用一个遵循buffer protocol的对象就可以和numpy交互了.这个buffer_protocol要有哪些东西呢? 要有如下接口:
  • Python 字符串格式化使用 "字符 %格式1 %格式2 字符"%(变量1,变量2),%格式表示接受变量的类型。简单的
  • difflib模块提供的类和方法用来进行序列的差异化比较,它能够比对文件并生成差异结果文本或者html格式的差异化比较页面,如果需要比较目录
  • 二分类或分类问题,网络输出为二维矩阵:批次x几分类,最大的为当前分类,标签为one-hot型的二维矩阵:批次x几分类计算百分比有numpy和
  • 字典的添加与修改# coding:utf-8if __name__ == '__main__':    
  • 前后端分离前后端分离的好处最大的好处就是前端JS可以做很大部分的数据处理工作,对服务器的压力减小到最小。后台错误不会直接反映到前台,错误接秒
  • 前言某个夜深人静的夜晚,夜微凉风微扬,月光照进我的书房~当我打开文件夹以回顾往事之余,惊现许多看似杂乱的无聊代码。我拍腿正坐,一个想法油然而
手机版 网络编程 asp之家 www.aspxhome.com