MySQL制作具有千万条测试数据的测试库的方法
作者:lichlaughing 发布时间:2024-01-22 07:00:36
标签:MySQL,测试库,千万测试数据
有时候需要制造一些测试的数据,以mysql官方给的测试库为基础,插入十万,百万或者千万条数据。利用一些函数和存储过程来完成。
官方给的测试库地址:https://github.com/datacharmer/test_db
导入官方的数据库,做了一些简化,留下了部门表,员工表和雇佣表三张表,去掉了外键关联。因为是测试数据,日期的对应关系不具备准确性。
必要的函数
生成随机字符串
RAND():生成0~1之间的随机数
FLOOR:向下整数 (FlOOR(1.2)=1)
CEILING 向上取整 (CEILING(1.2)=2)
substring:截取字符串
concat:字符串连接
CREATE DEFINER=`root`@`localhost` FUNCTION `rand_string`(n INT) RETURNS varchar(255) CHARSET latin1
BEGIN
DECLARE chars_str varchar(100) DEFAULT 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz';
DECLARE return_str varchar(255) DEFAULT '';
DECLARE i INT DEFAULT 0;
WHILE i < n DO
SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1));
SET i = i +1;
END WHILE;
RETURN return_str;
END
查看自定义的所有函数
show function status
测试使用:
select rand_string(5);
生成随机年月日字符串
生成一个指定时间段内的随机日期
SELECT
date(
from_unixtime( unix_timestamp( '2000-01-01' ) + floor( rand() * ( unix_timestamp( '2020-12-31' ) - unix_timestamp( '2000-01-01' ) + 1 ) ) ));
函数:生成指定时间段内的随机日期
CREATE DEFINER=`root`@`localhost` FUNCTION `rand_date_string`(startDate varchar(255),endDate varchar(255)) RETURNS varchar(255) CHARSET latin1
BEGIN
DECLARE return_str varchar(255) DEFAULT '';
SET return_str =date(
from_unixtime( unix_timestamp( startDate )
+ floor( rand() * ( unix_timestamp( endDate ) - unix_timestamp( startDate ) + 1 ) )
)
);
RETURN return_str;
END
测试使用:
select rand_date_string('2000-01-01','2020-12-31');
//结果
2001-09-10
存储过程生成数据
给每个部门插入一百万员工,那么员工表就有九百万的数据。
CREATE DEFINER=`root`@`localhost` PROCEDURE `data`()
BEGIN
DECLARE i INT DEFAULT 1;
DECLARE j INT DEFAULT 0;
DECLARE id INT DEFAULT 0;
WHILE i < 10 DO
WHILE j < 1000000 DO
insert into employees_m (emp_no,birth_date,first_name,last_name,gender,hire_date) VALUES(
id,rand_date_string('1970-01-01','1997-01-01'),rand_string(5),rand_string(5),'M',NOW());
insert into dept_emp_m (emp_no,dept_no,from_date,to_date) values(
id,concat('d00',i),rand_date_string('1990-01-01','2020-12-31'),'2020-12-31');
SET j=j+1;
SET id=id+1;
END WHILE;
SET j = 0;
SET i=i+1;
END WHILE;
END
插入九百万条数据大概用时:4868s
上面的方式插入数据会很慢,可以将数据插入到内存表,就是将表的存储引擎修改为MEMORY这样就会使用内存去存储数据,会比直接插入到INNODB引擎的表中快很多,只不过就是没有持久化,但是速度贼快,插入一千万条数据大概需要时间: 1227.89s
附录
修改表存储引擎
ALTER TABLE dept_emp_m ENGINE=MEMORY;
调整内存表的大小,修改配置文件
[mysqld]
max_heap_table_size = 2048M
tmp_table_size = 2048M
来源:https://www.cnblogs.com/lichlaughing/p/14055643.html?utm_source=tuicool&utm_medium=referral


猜你喜欢
- 本文实例讲述了MSSQL分页存储过程。分享给大家供大家参考,具体如下:USE [DB_Common]GO/****** 对象: Stored
- isnumeric()方法检查字符串是否仅由数字组成。这种方法只表示为Unicode对象。注意:要定义一个字符串为Unicode
- 一、理解装饰器所有东西都是对象(函数可以当做对象传递)由于函数也是一个对象,而且函数对象可以被赋值给变量,所以,通过变量也能调用该函数。de
- 本文实例为大家分享了Python求多幅图像栅格值的平均值,供大家参考,具体内容如下本程序所采用的方法并不是最优方法,ARCGIS已经提供了相
- 一、开始的话使用python简单的实现websocket服务器,可以在浏览器上实时显示远程服务器的日志信息。之前做了一个web版的发布系统,
- 1. 问题截图:(8000端口被占用)2. 第一种是可能会打开了多个运行窗口右键关闭即可:3. 第二种是在你运行python的主机上查询出p
- 本文实例为大家分享了python发邮件精简代码,供大家参考,具体内容如下import smtplibfrom email.mime.text
- 今天的这篇文章是讲XHTML中的细节部分的,这篇续述的主题就是ID与CLASS怎么用,在标题中有提及使用原则与技巧,这里的使用原则与技巧是我
- 简介 Closure 所谓“闭包”,指的是一个拥有许多变量和绑定了这些变量的环境的表达式(通常是一个函数),因而这些变量也是该表达式的一部分
- 先不说直接改后缀,直接可以用网快等工具直接下载,其实这样你已经是为入侵者打开了大门。入侵者可以利用asp/asa为后缀的数据库直接得到web
- 在命令行输入mysql -u root –p,输入密码,或通过工具连接数据库时,经常出现下面的错误信息,相信该错误信息很
- 本文实例为大家分享了HTML5 JS压缩图片,并获取图片BASE64编码上传的方法,供大家参考,具体内容如下基本过程1) 调用 FileRe
- 本文为大家分享了使用navicat将csv文件导入mysql的具体代码,供大家参考,具体内容如下1.打开navicat,连接到数据库并找到自
- 1、安装mysql有InnoDB的插件扩展 ./configure --prefix=/usr/local/mysql --with-plu
- 这篇文章主要介绍了给Python初学者的一些编程技巧,皆是基于基础的一些编程习惯建议,需要的朋友可以参考下交换变量x = 6y = 5 x,
- 话不多说,直接上代码吧!import numpy as npA = np.delete(A, 1, 0) # 删除A的第二行B = np.d
- 背景测试工具箱写到一半,今天遇到了一个前后端数据交互的问题,就一起做一下整理。环境-----------------------------
- pip的安装,以及使用pip安装包的方法,记录如下,分享给大家:—–安装python的时候勾选了下载pip,不知道为什么没下载。然后就偷懒想
- 1、开源库 Web 领域:Sanic https://github.com/channelcat/sanic这个库的名字和之前一个
- 卷积在pytorch中有两种实现,一种是torch.nn.Conv2d(),一种是torch.nn.functional.conv2d(),