2.3 为MySQL填充亿级数据实战_高性能Java架构：核心原理与案例实战-QQ阅读男频都市网

书名：高性能Java架构：核心原理与案例实战
作者名：张方兴编著
本章字数：1897字
更新时间：2025-02-23 21:26:19

2.3　为MySQL填充亿级数据实战

这里只准备了一台服务器作为MySQL服务器。该服务器内存1GB、硬盘20GB、CPU 1核、系统版本CentOS 6.5、MySQL版本5.1.73。

增加的测试数据的表结构如下所示：

在创建表之后，可以通过如下命令查看创建的表语句：

注意：该表仅用来测试，无其他特殊含义。

2.3.1　INSERT INTO SELECT方案

INSERT INTO SELECT语句可以先从一个表中复制数据，再把复制的数据插到一个已存在的表（目标表）中，并且目标表中已存在的行完全不受影响。从一个表中复制所有的列插到目标表中的命令如下所示：

也可以从一个表中只复制某些列插到目标表中：

1. INSERT INTO SELECT语句的优点和缺点

为数据库填充测试数据最快且最容易的方案是使用INSERT INTO SELECT语句。该方案不涉及任何I/O方面的消耗，最大的缺点是在创建数据时数据自由度不高。

注意，INSERT INTO SELECT语句只能为数据库填充数据，绝不能为数据库迁移数据。例如，需要将表A的数据迁移到表B中，虽然貌似可以使用INSERT INTO SELECT语句完成需求，但是INSERT INTO SELECT语句采用全表扫描的方式读取数据库资源，在默认的数据库隔离级别下，表B会被逐步行锁（扫一条锁一条），表A则会被表锁（全表加锁）。由于锁住的数据越来越多，进而导致数据库增删改大量失败，从而导致应用程序崩溃。

2. INSERT INTO SELECT语句的实现过程

（1）插入初始化数据：

初始化结果如图2-1所示。

图2-1

（2）通过INSERT INTO SELECT语句创建数据：

在多次使用INSERT INTO SELECT语句之后，每次使用该语句都会使数据量翻倍。在硬盘与CPU足够的情况下，几秒即可填充亿级数据，结果如图2-2所示。

图2-2

3. INSERT INTO SELECT语句可能出现的异常

当复制400万条数据到表中时已经出现了错误，如下所示：

这是由于缓冲区不够导致的，属于MySQL缓冲区异常。

此时需要在InnoDB buffer Pool中处理缓存，处理的缓存内容如下所示：

（1）数据缓存（InnoDB数据页面）。

（2）索引缓存（索引数据）。

（3）缓存数据（在内存中已修改但尚未写入磁盘的数据）。

（4）内部结构（如自适应哈希索引、行锁等）。

.……

因此，当MySQL大批量执行INSERT INTO SELECT语句时，要求InnoDB Buffer Pool要足够大，并且当InnoDB Buffer Pool较大时，还会提高INSERT INTO SELECT语句的执行效率。解决MySQL缓冲区异常的方式只有两种：

（1）在INSERT INTO SELECT语句中增加LIMIT限制性语句，保证每次增加的数据量缓冲区都可以承载。

（2）增加innodb_buffer_pool_size的值。

4. 增加innodb_buffer_pool_size的值的步骤

（1）使用下面的命令可以查看当前表使用了哪种数据库引擎：

结果如图2-3所示。

图2-3

（2）使用下面的命令可以查看当前数据库引擎状态中的参数：

运行之后，截取部分参数，如表2-1所示。从表2-1中可以看出，innodb_buffer_pool_size的值为“8388608”，即为8MB。

表2-1

（3）查看当前数据库引擎状态中的参数。

查找配置文件，在Linux系统中，配置文件是my.cnf；在Windows系统中，配置文件是my.ini。设置innodb_buffer_pool_size=64MB。更改之后，重新运行MySQL，再次查看数据库引擎状态中的参数可以发现，innodb_buffer_pool_size的值已经修改了，如图2-4所示。

图2-4

2.3.2　存储过程方案

存储过程（Stored Procedure）是数据库中可以完成某种特定功能的SQL语句集。用户可以通过指定存储过程的名称并给定参数（需要时）来调用并执行存储过程。我们可以把存储过程简单地理解为数据库在SQL语言层面的代码封装与重用。MySQL是从5.0版本开始支持存储过程的。

1. 存储过程方案的优点和缺点

优点：

（1）存储过程可封装，并隐藏复杂的商业逻辑。

（2）存储过程可以回传值，并且可以接收参数。

（3）存储过程无法使用SELECT指令来运行，因为它是子程序，与查看表、数据表或用户定义函数等不同。

（4）存储过程可以用在数据检验上，强制执行商业逻辑等。

缺点：

（1）存储过程往往定制化于特定的数据库上，当切换到其他数据库时，因为支持的编程语言不同，需要重写原有的存储过程。

（2）存储过程的性能调校与编写通常受限于数据库。

2. 存储过程方案的实现过程

声明存储过程，如下所示：

注意：此处可以使用存储方案的随机数函数来创建数据。另外，如果要增加事务，则不要过于频繁提交事务，否则会出现磁盘I/O异常。

调用存储过程如表2-2所示。

表2-2

2.3.3　Loadfile方案

Loadfile方案相当于使用Java或Python等语言先创建CVS、txt等文件，再把数据存放在这些文件中，最后通过MySQL的Loadfile命令，把文件中的数据导入MySQL中。

1. Loadfile方案的优点和缺点

Loadfile方案与INSERT INTO SELECT方案和存储过程方案相比，自由度更高。但是从需要准备的文件来看，Loadfile方案整体所需要的时间比INSERT INTO SELECT方案和存储过程方案要多。

2. Loadfile方案的实现过程

（1）准备文件。

通过Java或Python等语言编写代码，输出相应的CVS文件或txt文件，文件内容如图2-5所示。

图2-5

（2）把文件导入MySQL中。

使用如下命令把文件上传到服务端的/var/lib/mysql/目录下：

Navicat和SQLYog等工具也有上传文件的功能，但是数据库在连接这类工具时速度会慢很多。

2.3.4　第三方解决方案

1. DataFactory

DataFactory是一个大数据生成工具，可以按照数据的某些规律大批量地生成数据。该工具的特点是简单易用。

2. Datafaker

Datafaker是一个大批量测试数据和流测试数据的生成工具，是一个多数据源测试数据构造工具，可以模拟生成大部分常用数据类型的数据。

本周热推：

Java Web动态网站开发（第2版·微课版）C语言程序设计实验指导与习题精解 PLC标准化编程原理与方法 Android热门应用开发详解剑指大数据：企业级数据仓库项目实战（在线教育版）