一次mysql迁移的方案与踩坑实战记录
作者:假装懂编程 发布时间:2024-01-13 03:34:42
目录
背景
方案一:老数据备份
方案二:分表
方案三:迁移至tidb
重点说下同步老数据遇到的坑
最终同步脚本方案
总结
背景
由于历史业务数据采用mysql来存储的,其中有一张操作记录表video_log,每当用户创建、更新或者审核人员审核的时候,对应的video_log就会加一条日志,这个log表只有insert,可想而知,1个video对应多条log,一天10w video,平均统计一个video对应5条log,那么一天50w的log, 一个月50 * 30 = 1500w条记录, 一年就是1500 * 12 = 1.8亿。目前线上已经有2亿多的数据了,由于log本身不面向C端,用于查询问题的,所以可以忍受一点的延迟。 但是随着时间的积累,必然会越来越慢,影响效率,于是提出改造。
方案一:老数据备份
由于log本身不是最关键的数据,但是也要求实时性高(用于实时查询问题),所以一开始的想法是核心的基础存储还是保持不变,较老的数据迁移出去,毕竟突然去查询一年前的操作记录的概率很小,如果突然要查,可以走离线。设计的话,我们只需要一个定时脚本,每天在凌晨4点左右(业务低峰期)抽数据。抽出的数据可以上报到一些离线存储(一般公司都有基于hive的数仓之类的),这样就可以保持线上的video_log的数据不会一直增长。
方案二:分表
分表也是一种解决方案,相对方案一的好处就是,所有的数据都支持实时查,缺点是代码要改造了。
首先确认sharding key,因为video_log是和video绑定的,所以自然而然选择video_id作为我们的sharding key
按什么分表确定了,接下来确认下分多少张表。先定个小目标,支撑3年。每张表最大数据量为1个亿(由于我们的查询简单),按照上面的统计,我们3年大概:3*1.8=5.4亿,那么大概需要5.4/1≈6张表。
接下来就是改造代码了,得解决新老数据读写的问题。
新数据的插入直接插入新表
由于log表只有insert,所以不存在update、delete这些操作,不需要考虑这些场景。
分表后,一个video的log存在两张表(老表和新表),所以临时两张表都查,然后做个合并
同步老数据到新表中
下线读取老表的代码
方案三:迁移至tidb
方案二的缺点比较明显,3年后咋办,继续拆表?感觉始终有个历史债在那。于是我们的目光定位到了tidb,tidb是分布式的数据库,接入了tidb,我们就无需关心分表了,这些tidb都帮我们做了,它会自己做节点的扩容。由于是分布式的,所以tidb的主键是无序的,这点很重要。
整个流程大概分为以下4个步骤:
先双写(记录下刚开始双写时的mysql的id,在此id前的肯定都是老数据)
同步老数据(通过第一步记录的id来区分)
切读(老数据同步完了)
下双写
重点说下同步老数据遇到的坑
迁移至tidb,看似很简单,其实在job脚本这里隐藏着几个坑。
要考虑万一job中途断了,重新启动咋办,撇开重头跑数据的时间成本,已经同步的数据重新跑会重复,还要考虑重复数据的问题。解决重复数据的问题,可以对老表新加一个字段标识是否已同步,每次同步完,更新下字段。缺点:线上数据大,加个字段不太安全,可能造成线上阻塞。
既然加个字段不好,那就用现有的主键id做约束,把主键id也同步过去,这样就算脚本重启,从头开始跑的,也因为相同的主健已经插入过,那么就会报错跳过。看似很完美,然而tidb是分布式的,主键id不是连续的,那么可能出现这样一种情况。正常的业务数据插入tidb,tidb分配的主键id和mysql同步的主键id重复,那么不管是谁,最后插入的那一条肯定是失败的。
最终同步脚本方案
综合考虑数据的重复性,job重启效率性,和整个同步的效率性,我大概做出以下方案:
任务分批提升效率:首先根据处理能力和预期完成时间,先对老数据进行分批,大概分了10批,10个job去跑不同批次的数据,互不干扰,且每次批量更新100条。
记录状态,重启自动恢复到断点:每次同步数据后记录下当前同步的位置(redis记录下当前的id),就算重启也可以从redis里拿到之前的更新位置,接着更新。
避免主键冲突:同步除了主键之外的所有字段(不同步主键)
最终通过方案三的四个切换步骤+高效率的同步脚本平稳的完成了数据的迁移
来源:https://juejin.cn/post/6991822484941045767
猜你喜欢
- 本文实例讲述了Python字典生成式、集合生成式、生成器用法。分享给大家供大家参考,具体如下:字典生成式:跟列表生成式一样,字典生成式用来快
- 先打开安装程序。 选择对应的系统版本,我是64位,所以选了X64。  
- 正解使用useRouter:// router的 path: "/user/:uid"<template>
- import reimport urllib2import cookielibdef renren():
- 在讲样式表开发管理之前,我想插播一个小知识。前几天看web标准设计组里,看到龍佑康同学问到关于 block 和 inline 的区别。记得以
- 使用Python的人都知道range()函数和list很方便,今天再用到他的时候发现了很多以前看到过但是忘记的细节。这里记录一下range(
- #!/usr/bin/python#coding:utf-8#write:JACK#info:ftp exampleimport ftpli
- axios form-data格式 传输数据和文件form-data是在post请求下的一种传输方式,数据会在Form Data中传输,他的
- 本文实例讲述了php购物车实现方法。分享给大家供大家参考。具体分析如下:这里我们为你提供个简单的php购物车代码,从增加购物产品与发生购买了
- 铃铃铃…… 上课了老师在黑板写着这么一个标题 《Python: 你所不知道的星号 * 用法》同学A: 呃,星号不就
- 在python中,文件使用十分频繁,本文将向大家介绍python文件路径的操作:得到指定文件路径、得到当前文件名、判断文件路径是否存在、获得
- 一、前言1.1 关于描述性统计分析概括地来说,描述性统计分析就是在收集到的数据的基础上,运用制表和分类,图形以及计算概括性数据来描述数据特征
- 在炼丹时,数据的读取与预处理是关键一步。不同的模型所需要的数据以及预处理方式各不相同,如果每个轮子都我们自己写的话,是很浪费时间和精力的。P
- “/”应用程序中的服务器错误。用户 'jb51net' 登录失败。原因: 该帐户的密码必须更改。说明: 执行当前 Web 请
- 本文实例讲述了php封装的单文件(图片)上传类。分享给大家供大家参考,具体如下:<?php//封装php中的单文件(图片)上传类/*/
- 1.Go连接LDAP服务通过go操作的ldap,这里使用到的是go-ldap包,该包基本上实现了ldap v3的基本功能. 比如连接ldap
- 1、准备数据以下操作将在该表中进行create table student ( id int unsigned primary key au
- 用django框架来做一些后台管理的web页面简直太方便了,django自带模块级的权限系统,用来做一些内部的系统非常合适,可以大大的减少开
- 一、RESTful 概述REST(Representational State Transfer)风格是一种面向资源的 Web 应用程序设计
- 本文实例讲述了Python找出list中最常出现元素的方法。分享给大家供大家参考,具体如下:假设一个list中保存着各种元素,需要统计每个元