Redis 的内存碎片、缓冲区
参考:
# 1. Redis 的内存碎片问题
使用 Redis 时经常会遇到这样一个问题:明明做了数据删除,数据量已经不大了,为什么使用top命令查看时,还会发现Redis占用了很多内存呢?实际上,这是因为,当数据删除后,Redis 释放的内存空间会由内存分配器管理,并不会立即返回给操作系统。所以,操作系统仍然会记录着给Redis分配了大量内存。
但是,这往往会伴随一个潜在的风险点:Redis 释放的内存空间可能并不是连续的,那么,这些不连续的内存空间很有可能处于一种闲置的状态。这就会导致一个问题:虽然有空闲空间,Redis却无法用来保存数据,不仅会减少Redis能够实际保存的数据量,还会降低Redis运行机器的成本回报率。
这一节将讨论一下 Redis 的内存空间存储效率问题,探索一下,为什么数据已经删除了,但内存却闲置着没有用,以及相应的解决方案。
# 1.1 什么是内存碎片?
通常情况下,内存空间闲置,往往是因为操作系统发生了较为严重的内存碎片,导致无法继续分配一块连续空间。
内存碎片:内存中还有 5KB 的空余,但都是零散在不同地方,无法满足“申请一块连续 2KB 空间”的要求。
# 1.2 内存碎片是如何形成的?
其实,内存碎片的形成有内因和外因两个层面的原因。简单来说,内因是操作系统的内存分配机制,外因是 Redis 的负载特征。
# 1.2.1 内因:内存分配器的分配策略
内存分配器的分配策略就决定了操作系统无法做到“按需分配”。这是因为,内存分配器一般是按固定大小来分配内存,而不是完全按照应用程序申请的内存空间大小给程序分配。
Redis可以使用libc、jemalloc、tcmalloc多种内存分配器来分配内存,默认使用jemalloc。接下来,我就以jemalloc为例,来具体解释一下。其他分配器也存在类似的问题。
jemalloc的分配策略之一,是按照一系列固定的大小划分内存空间,例如8字节、16字节、32字节、48字节,…, 2KB、4KB、8KB等。当程序申请的内存最接近某个固定值时,jemalloc会给它分配相应大小的空间。
这样的分配方式本身是为了减少分配次数。例如,Redis申请一个20字节的空间保存数据,jemalloc就会分配32字节,此时,如果应用还要写入10字节的数据,Redis就不用再向操作系统申请空间了,因为刚才分配的32字节已经够用了,这就避免了一次分配操作。
但是,如果 Redis 每次向分配器申请的内存空间大小不一样,这种分配方式就会有形成碎片的风险,而这正好来源于 Redis 的外因了。
# 1.2.2 外因:键值对大小不一样和删改操作
第一个外因:
Redis 通常作为共用的缓存系统或键值数据库对外提供服务,所以,不同业务应用的数据都可能保存在 Redis 中,这就会带来不同大小的键值对。但内存分配器只能按固定大小分配内存,所以,分配的内存空间一般都会比申请的空间大一些,不会完全一致,这本身就会造成一定的碎片,降低内存空间存储效率。
第二个外因:
第二个外因是,这些键值对会被修改和删除,这会导致空间的扩容和释放。具体来说,一方面,如果修改后的键值对变大或变小了,就需要占用额外的空间或者释放不用的空间。另一方面,删除的键值对就不再需要内存空间了,此时,就会把空间释放出来,形成空闲空间。
但这样频繁操作后,会形成很多碎片空间,它们不是连续的,导致难以被利用。
好了,到这里,我们就知道了造成内存碎片的内外因素,其中,内存分配器策略是内因,而Redis的负载属于外因,包括了大小不一的键值对和键值对修改删除带来的内存空间变化。
大量内存碎片的存在,会造成 Redis 的内存实际利用率变低,接下来,我们就要来解决这个问题了。不过,在解决问题前,我们要先判断 Redis 运行过程中是否存在内存碎片。
# 1.3 如何判断是否有内存碎片?
为了让用户能监控到实时的内存使用情况,Redis 自身提供了 INFO 命令,可以用来查询内存使用的详细信息,命令如下:
INFO memory
# Memory
used_memory:1073741736
used_memory_human:1024.00M
used_memory_rss:1997159792
used_memory_rss_human:1.86G
…
mem_fragmentation_ratio:1.86
2
3
4
5
6
7
8
这里有一个 mem_fragmentation_ratio 的指标,它表示的就是 Redis 当前的内存碎片率。那么,这个碎片率是怎么计算的呢?其实,就是上面的命令中的两个指标used_memory_rss和used_memory相除的结果:
- used_memory_rss 是操作系统实际分配给Redis的物理内存空间,里面就包含了碎片;
- used_memory 是 Redis 为了保存数据实际申请使用的空间。
这个指标如何使用呢?这里有一些经验阈值:
- mem_fragmentation_ratio 大于 1 但小于 1.5。这种情况是合理的。这是因为,刚才我介绍的那些因素是难以避免的。毕竟,内因的内存分配器是一定要使用的,分配策略都是通用的,不会轻易修改;而外因由Redis负载决定,也无法限制。所以,存在内存碎片也是正常的。
- mem_fragmentation_ratio 大于 1.5 。这表明内存碎片率已经超过了50%。一般情况下,这个时候,我们就需要采取一些措施来降低内存碎片率了。
# 1.4 如何清理内存碎片?
# 1.4.1 重启 Redis 的方法
当 Redis 发生内存碎片后,一个“简单粗暴”的方法就是重启Redis实例。当然,这并不是一个“优雅”的方法,毕竟,重启 Redis 会带来两个后果:
- 如果 Redis 中的数据没有持久化,那么,数据就会丢失;
- 即使 Redis 数据持久化了,我们还需要通过 AOF 或 RDB 进行恢复,恢复时长取决于 AOF 或 RDB 的大小,如果只有一个 Redis 实例,恢复阶段无法提供服务。
# 1.4.2 内存碎片自动清理的方法
所以,还有什么其他好办法吗?幸运的是,从 4.0-RC3 版本以后,Redis 自身提供了一种内存碎片自动清理的方法,我们先来看这个方法的基本机制:“搬家让位,合并空间”,用一张图来解释就是:
不过需要注意:碎片清理是有代价的,操作系统需要把多份数据拷贝到新位置,把原有空间释放出来,这会带来时间开销,会阻塞 Redis 的线程。
有什么办法可以尽量缓解这个问题吗?这就要提到 Redis 专门为自动内存碎片清理机制设置的参数了。我们可以通过设置参数,来控制碎片清理的开始和结束时机,以及占用的CPU比例,从而减少碎片清理对 Redis 本身请求处理的性能影响。
# 1.4.3 内存碎片自动清理的相关参数
首先,Redis 需要启用自动内存碎片清理,可以把 activedefrag 配置项设置为 yes,命令如下:
config set activedefrag yes
这个命令只是启用了自动清理功能,但是,具体什么时候清理,会受到下面这两个参数的控制。这两个参数分别设置了触发内存清理的一个条件,如果同时满足这两个条件,就开始清理。在清理的过程中,只要有一个条件不满足了,就停止自动清理:
- active-defrag-ignore-bytes 100mb:表示内存碎片的字节数达到100MB时,开始清理;
- active-defrag-threshold-lower 10:表示内存碎片空间占操作系统分配给Redis的总空间比例达到10%时,开始清理。
为了尽可能减少碎片清理对 Redis 正常请求处理的影响,自动内存碎片清理功能在执行时,还会监控清理操作占用的 CPU 时间,而且还设置了两个参数,分别用于控制清理操作占用的CPU时间比例的上、下限,既保证清理工作能正常进行,又避免了降低 Redis 性能。这两个参数具体如下:
- active-defrag-cycle-min 25: 表示自动清理过程所用CPU时间的比例不低于25%,保证清理能正常开展;
- active-defrag-cycle-max 75:表示自动清理过程所用CPU时间的比例不高于75%,一旦超过,就停止清理,从而避免在清理时,大量的内存拷贝阻塞Redis,导致响应延迟升高。
自动内存碎片清理机制在控制碎片清理启停的时机上,既考虑了碎片的空间占比、对 Redis 内存使用效率的影响,还考虑了清理机制本身的 CPU 时间占比、对 Redis 性能的影响。而且,清理机制还提供了 4 个参数,让我们可以根据实际应用中的数据量需求和性能要求灵活使用,建议你在实践中好好地把这个机制用起来。
# 1.5 小结
这一大节主要了解了 Redis 的内存空间效率问题,这里面的一个关键技术点就是要识别和处理内存碎片:
- info memory 命令是一个好工具,可以帮助你查看碎片率的情况;
- 碎片率阈值是一个好经验,可以帮忙你有效地判断是否要进行碎片清理了;
- 内存碎片自动清理是一个好方法,可以避免因为碎片导致 Redis 的内存实际利用率降低,提升成本收益率。
内存碎片并不可怕,我们要做的就是了解它,重视它,并借用高效的方法解决它。
最后,我再给你提供一个小贴士:内存碎片自动清理涉及内存拷贝,这对Redis而言,是个潜在的风险。如果你在实践过程中遇到Redis性能变慢,记得通过日志看下是否正在进行碎片清理。如果Redis的确正在清理碎片,那么,我建议你调小active-defrag-cycle-max的值,以减轻对正常请求处理的影响。
# 2. 缓冲区:一个可能引发“惨案”的地方
缓冲区的功能其实很简单,主要就是用一块内存空间来暂时存放命令数据,以免出现因为数据和命令的处理速度慢于发送速度而导致的数据丢失和性能问题。但因为缓冲区的内存空间有限,如果往里面写入数据的速度持续地大于从里面读取数据的速度,就会导致缓冲区需要越来越多的内存来暂存数据。当缓冲区占用的内存超出了设定的上限阈值时,就会出现缓冲区溢出。如果发生了溢出,就会丢数据了。
可以不给缓冲区的大小设置上限吗?显然不行,随着累积的数据越来越多,缓冲区占用内存空间越来越大,一旦耗尽了Redis实例所在机器的可用内存,就会导致Redis实例崩溃。
所以毫不夸张地说,缓冲区是用来避免请求或数据丢失的惨案的,但也只有用对了,才能真正起到“避免”的作用。
Redis 的两个应用场景:
- 在 client 和 server 进行通信时,用来暂存客户端发送的命令数据,或者是服务器端返回给客户端的数据结果。
- 在主从节点间进行数据同步时,用来暂存主节点接收的写命令和数据。
这一大节将分别聊聊服务器端和客户端、主从集群间的缓冲区溢出问题,以及应对方案。
# 2.1 客户端的输入和输出缓冲区
我们先来看看服务器端和客户端之间的缓冲区。
为了避免客户端和服务器端的请求发送和处理速度不匹配,服务器端给每个连接的客户端都设置了一个输入缓冲区和输出缓冲区,我们称之为客户端输入缓冲区和输出缓冲区。
输入缓冲区会先把客户端发送过来的命令暂存起来,Redis主线程再从输入缓冲区中读取命令,进行处理。当Redis主线程处理完数据后,会把结果写入到输出缓冲区,再通过输出缓冲区返回给客户端,如下图所示:
下面,我们就分别学习下输入缓冲区和输出缓冲区发生溢出的情况,以及相应的应对方案。
# 2.1.1 如何应对输入缓冲区溢出?
输入缓冲区就是用来暂存客户端发送的请求命令的,所以可能导致溢出的情况主要是下面两种:
- 写入了 bigkey,比如一下子写入了多个百万级别的集合类型数据;
- 服务器端处理请求的速度过慢,例如,Redis 主线程出现了间歇性阻塞,无法及时处理正常发送的请求,导致客户端发送的请求在缓冲区越积越多。
接下来将探讨如何查看输入缓冲区的内存使用情况、如何避免溢出这两个问题。
如何查看输入缓冲区的内存使用情况?这可以使用 CLIENT LIST 命令:
CLIENT LIST
id=5 addr=127.0.0.1:50487 fd=9 name= age=4 idle=0 flags=N db=0 sub=0 psub=0 multi=-1 qbuf=26 qbuf-free=32742 obl=0 oll=0 omem=0 events=r cmd=client
2
我们只需要重点关注其中的两类信息:
- 一类是与服务器端连接的客户端的信息。这个案例展示的是一个客户端的输入缓冲区情况,如果有多个客户端,输出结果中的addr会显示不同客户端的IP和端口号。
- 另一类是与输入缓冲区相关的三个参数:
- cmd,表示客户端最新执行的命令。这个例子中执行的是CLIENT命令。
- qbuf,表示输入缓冲区已经使用的大小。这个例子中的CLIENT命令已使用了26字节大小的缓冲区。
- qbuf-free,表示输入缓冲区尚未使用的大小。这个例子中的CLIENT命令还可以使用32742字节的缓冲区。qbuf和qbuf-free的总和就是,Redis服务器端当前为已连接的这个客户端分配的缓冲区总大小。这个例子中总共分配了 26 + 32742 = 32768字节,也就是32KB的缓冲区。
有了CLIENT LIST命令,我们就可以通过输出结果来判断客户端输入缓冲区的内存占用情况了。如果qbuf很大,而同时qbuf-free很小,就要引起注意了,因为这时候输入缓冲区已经占用了很多内存,而且没有什么空闲空间了。此时,客户端再写入大量命令的话,就会引起客户端输入缓冲区溢出,Redis的处理办法就是把客户端连接关闭,结果就是业务程序无法进行数据存取了。
通常情况下,Redis服务器端不止服务一个客户端,当多个客户端连接占用的内存总量,超过了Redis的maxmemory配置项时(例如4GB),就会触发Redis进行数据淘汰。一旦数据被淘汰出Redis,再要访问这部分数据,就需要去后端数据库读取,这就降低了业务应用的访问性能。此外,更糟糕的是,如果使用多个客户端,导致Redis内存占用过大,也会导致内存溢出(out-of-memory)问题,进而会引起Redis崩溃,给业务应用造成严重影响。
Redis的客户端输入缓冲区大小的上限阈值,在代码中就设定为了1GB。也就是说,Redis服务器端允许为每个客户端最多暂存1GB的命令和数据。1GB的大小,对于一般的生产环境已经是比较合适的了。一方面,这个大小对于处理绝大部分客户端的请求已经够用了;另一方面,如果再大的话,Redis就有可能因为客户端占用了过多的内存资源而崩溃。所以,Redis并没有提供参数让我们调节客户端输入缓冲区的大小。如果要避免输入缓冲区溢出,那我们就只能从数据命令的发送和处理速度入手,也就是前面提到的避免客户端写入bigkey,以及避免Redis主线程阻塞。
# 2.1.2 如何应对输出缓冲区溢出?
Redis 的输出缓冲区暂存的是 Redis 主线程要返回给客户端的数据。一般来说,主线程返回给客户端的数据,既有简单且大小固定的 OK 响应(例如,执行 SET 命令)或报错信息,也有大小不固定的、包含具体数据的执行结果(例如,执行 HGET 命令)。
因此,Redis 为每个客户端设置的输出缓冲区也包括两部分:一部分,是一个大小为 16KB 的固定缓冲空间,用来暂存 OK 响应和出错信息;另一部分,是一个可以动态增加的缓冲空间,用来暂存大小可变的响应结果。
有三种情况可能发生输出缓冲区溢出:
- 服务器端返回 bigkey 的大量结果;
- 执行了 MONITOR 命令;
- 缓冲区大小设置得不合理。
MONITOR 命令执行后会持续输出监测到的各个命令操作,其输出结果会占用输出缓冲区,从而可能发生溢出。因此,MONITOR 命令主要用在调试环境中,不要在线上生产环境下持续使用 MONITOR。
接下来,我们看下输出缓冲区大小设置的问题。和输入缓冲区不同,我们可以通过client-output-buffer-limit配置项,来设置缓冲区的大小。具体设置的内容包括两方面:
- 设置缓冲区大小的上限阈值;
- 设置输出缓冲区持续写入数据的数量上限阈值,和持续写入数据的时间的上限阈值。
在具体使用client-output-buffer-limit来设置缓冲区大小的时候,我们需要先区分下客户端的类型。
对于和Redis实例进行交互的应用程序来说,主要使用两类客户端和Redis服务器端交互,分别是常规和Redis服务器端进行读写命令交互的普通客户端,以及订阅了Redis频道的订阅客户端。此外,在Redis主从集群中,主节点上也有一类客户端(从节点客户端)用来和从节点进行数据同步,我会在介绍主从集群中的缓冲区时,向你具体介绍。
当我们给普通客户端设置缓冲区大小时,通常可以在Redis配置文件中进行这样的设置:
client-output-buffer-limit normal 0 0 0
其中,normal 表示当前设置的是普通客户端,第1个0设置的是缓冲区大小限制,第2个0和第3个0分别表示缓冲区持续写入量限制和持续写入时间限制。
对于普通客户端来说,它每发送完一个请求,会等到请求结果返回后,再发送下一个请求,这种发送方式称为阻塞式发送。在这种情况下,如果不是读取体量特别大的bigkey,服务器端的输出缓冲区一般不会被阻塞的。
所以,我们通常把普通客户端的缓冲区大小限制,以及持续写入量限制、持续写入时间限制都设置为0,也就是不做限制。
对于订阅客户端来说,一旦订阅的Redis频道有消息了,服务器端都会通过输出缓冲区把消息发给客户端。所以,订阅客户端和服务器间的消息发送方式,不属于阻塞式发送。不过,如果频道消息较多的话,也会占用较多的输出缓冲区空间。
因此,我们会给订阅客户端设置缓冲区大小限制、缓冲区持续写入量限制,以及持续写入时间限制,可以在Redis配置文件中这样设置:
client-output-buffer-limit pubsub 8mb 2mb 60
其中,pubsub参数表示当前是对订阅客户端进行设置;8mb表示输出缓冲区的大小上限为8MB,一旦实际占用的缓冲区大小要超过8MB,服务器端就会直接关闭客户端的连接;2mb和60表示,如果连续60秒内对输出缓冲区的写入量超过2MB的话,服务器端也会关闭客户端连接。
好了,我们来总结下如何应对输出缓冲区溢出:
- 避免bigkey操作返回大量数据结果;
- 避免在线上环境中持续使用MONITOR命令。
- 使用client-output-buffer-limit设置合理的缓冲区大小上限,或是缓冲区连续写入时间和写入量上限。
以上就是关于客户端缓冲区,我们要重点掌握的内容了。我们继续看看在主从集群间使用缓冲区,需要注意什么问题。
# 2.2 主从集群中的缓冲区
主从集群间的数据复制包括全量复制和增量复制两种。全量复制是同步所有数据,而增量复制只会把主从库网络断连期间主库收到的命令,同步给从库。无论在哪种形式的复制中,为了保证主从节点的数据一致,都会用到缓冲区。但是,这两种复制场景下的缓冲区,在溢出影响和大小设置方面并不一样。所以,我们分别来学习下吧。
# 2.2.1 复制缓冲区的溢出问题
在全量复制过程中,主节点在向从节点传输RDB文件的同时,会继续接收客户端发送的写命令请求。这些写命令就会先保存在复制缓冲区中,等RDB文件传输完成后,再发送给从节点去执行。主节点上会为每个从节点都维护一个复制缓冲区,来保证主从节点间的数据同步。
所以,如果在全量复制时,从节点接收和加载RDB较慢,同时主节点接收到了大量的写命令,写命令在复制缓冲区中就会越积越多,最终导致溢出。
其实,主节点上的复制缓冲区,本质上也是一个用于和从节点连接的客户端(我们称之为从节点客户端),使用的输出缓冲区。复制缓冲区一旦发生溢出,主节点也会直接关闭和从节点进行复制操作的连接,导致全量复制失败。那如何避免复制缓冲区发生溢出呢?
一方面,我们可以控制主节点保存的数据量大小。按通常的使用经验,我们会把主节点的数据量控制在2~4GB,这样可以让全量同步执行得更快些,避免复制缓冲区累积过多命令。
另一方面,我们可以使用client-output-buffer-limit配置项,来设置合理的复制缓冲区大小。设置的依据,就是主节点的数据量大小、主节点的写负载压力和主节点本身的内存大小。
我们通过一个具体的例子,来学习下具体怎么设置。在主节点执行如下命令:
config set client-output-buffer-limit slave 512mb 128mb 60
其中,slave参数表明该配置项是针对复制缓冲区的。512mb代表将缓冲区大小的上限设置为512MB;128mb和60代表的设置是,如果连续60秒内的写入量超过128MB的话,也会触发缓冲区溢出。
我们再继续看看这个设置对我们有啥用。假设一条写命令数据是1KB,那么,复制缓冲区可以累积512K条(512MB/1KB = 512K)写命令。同时,主节点在全量复制期间,可以承受的写命令速率上限是2000条/s(128MB/1KB/60 约等于2000)。
这样一来,我们就得到了一种方法:在实际应用中设置复制缓冲区的大小时,可以根据写命令数据的大小和应用的实际负载情况(也就是写命令速率),来粗略估计缓冲区中会累积的写命令数据量;然后,再和所设置的复制缓冲区大小进行比较,判断设置的缓冲区大小是否足够支撑累积的写命令数据量。
关于复制缓冲区,我们还会遇到一个问题。主节点上复制缓冲区的内存开销,会是每个从节点客户端输出缓冲区占用内存的总和。如果集群中的从节点数非常多的话,主节点的内存开销就会非常大。所以,我们还必须得控制和主节点连接的从节点个数,不要使用大规模的主从集群。
好了,我们先总结一下这部分的内容。为了避免复制缓冲区累积过多命令造成溢出,引发全量复制失败,我们可以控制主节点保存的数据量大小,并设置合理的复制缓冲区大小。同时,我们需要控制从节点的数量,来避免主节点中复制缓冲区占用过多内存的问题。
# 2.2.2 复制积压缓冲区的溢出问题
接下来,我们再来看下增量复制时使用的缓冲区,这个缓冲区称为复制积压缓冲区。
主节点在把接收到的写命令同步给从节点时,同时会把这些写命令写入复制积压缓冲区。一旦从节点发生网络闪断,再次和主节点恢复连接后,从节点就会从复制积压缓冲区中,读取断连期间主节点接收到的写命令,进而进行增量同步,如下图所示:
之前也有讲过这个复制积压缓冲区,只不过当时称之为 repl_backlog_buffer。这里将从缓冲区溢出的角度再来回顾下两个重点:复制积压缓冲区溢出的影响,以及如何应对复制积压缓冲区的溢出问题。
首先,复制积压缓冲区是一个大小有限的环形缓冲区。当主节点把复制积压缓冲区写满后,会覆盖缓冲区中的旧命令数据。如果从节点还没有同步这些旧命令数据,就会造成主从节点间重新开始执行全量复制。
其次,为了应对复制积压缓冲区的溢出问题,我们可以调整复制积压缓冲区的大小,也就是设置repl_backlog_size这个参数的值。具体的调整依据,你可以再看下第6讲 (opens new window)中提供的repl_backlog_size大小的计算依据。
# 2.3 小结
这一大节主要讲了 Redis 中所使用的缓冲区,使用缓冲区以后,当命令数据的接收方处理速度跟不上发送方的发送速度时,缓冲区可以避免命令数据的丢失。
从缓冲区溢出对Redis的影响的角度,可以分成如下两类:
- 缓冲区溢出导致网络连接关闭:普通客户端、订阅客户端,以及从节点客户端,它们使用的缓冲区,本质上都是Redis客户端和服务器端之间,或是主从节点之间为了传输命令数据而维护的。这些缓冲区一旦发生溢出,处理机制都是直接把客户端和服务器端的连接,或是主从节点间的连接关闭。网络连接关闭造成的直接影响,就是业务程序无法读写Redis,或者是主从节点全量同步失败,需要重新执行。
- 缓冲区溢出导致命令数据丢失:主节点上的复制积压缓冲区属于环形缓冲区,一旦发生溢出,新写入的命令数据就会覆盖旧的命令数据,导致旧命令数据的丢失,进而导致主从节点重新进行全量复制。
从本质上看,缓冲区溢出,无非就是三个原因:命令数据发送过快过大;命令数据处理较慢;缓冲区空间过小。明白了这个,我们就可以有针对性地拿出应对策略了:
- 针对命令数据发送过快过大的问题,对于普通客户端来说可以避免bigkey,而对于复制缓冲区来说,就是避免过大的RDB文件。
- 针对命令数据处理较慢的问题,解决方案就是减少Redis主线程上的阻塞操作,例如使用异步的删除操作。
- 针对缓冲区空间过小的问题,解决方案就是使用client-output-buffer-limit配置项设置合理的输出缓冲区、复制缓冲区和复制积压缓冲区大小。当然,我们不要忘了,输入缓冲区的大小默认是固定的,我们无法通过配置来修改它,除非直接去修改Redis源码。
有了上面这些应对方法,我相信你在实际应用时,就可以避免缓冲区溢出带来的命令数据丢失、Redis崩溃的这些“惨案”了。