作者：王清培(Plen wang) 沪江Java资深架构师

最近一段时间与redis接触比较频繁。发现有些东西还是工作中经常会用到的，自己也花了点时间巩固下。本篇文章主要是以总结性的方式梳理，因为redis的主题很大，任何一个技术点展开都是几篇文章的量。也可以说这篇文章是个概览。

1.redis基本数据结构与短结构压缩

了解redis的数据结构有助于了解每种数据结构的优劣势，方便设计合理的cache结构。

1.1.redis提供5种数据结构

1.STRING：可以存储字符串、浮点型、整型，如果是字符串可以执行字符串操作，如果是浮点型、整型也可以执行加减操作。redis会识别出它的具体类型。

2.LIST：链表，链表中的每个NODE包含一个字符串。可以对链表进行两端推入、弹出操作。

3.SET：无序集合，不会存在相同的集合元素，集合的交集、并集、差集运算。

4.HASH：键值对的无需散列，增、删、获取键值。

5.ZSET：有序集合，根据一个浮点数分值来排序。

这几种数据类型用起来场景还是比较明显的，遇到复杂的cache场景我们需要结合这几种数据结构一起来设计。

比如，购物车场景，我们首先需要两个HASH来存储，第一个HASH是用户与购物车之间的关系，第二个HASH是购物车中的商品列表。
先通过userId获取到shoppingCartId，然后再通过shoppingCartId就可以获取到用户购物车的ProductIds。然后再通过ProductIds就可以异步读取用户购物车的商品信息。
通过userId获取shoppingCartId，再通过shoppingCartId获取ProductIds，这看似两个步骤可以在一个redis command中执行完成。（借助redis的pipeline管道。）

设计cache的时候，可以稍微综合的考虑下这几种结构，如果没有理想的结构再扩展下，将这几种结构混搭下可以满足复杂的cache结构。有一个平衡点就是过期时间的把握，集合没有办法设置具体item的过期时间，所以具体的数据对象还是需要设置expire，保证数据的新鲜度，比如，这里的STRING:p100商品。

1.2.压缩表与集合的整数集合编码

redis为列表、集合、散列、有序集合提供了压缩存储的方式，在存储数据不多的情况下用redis提供的短结构，可以换来极大的存储压缩比。

redis的数据类型对应的短结构实现：list、zset、hash，这三个将使用ziplist，set使用集合整数编码。

默认的存储结构是以entry node 链表来存储数据的。然而，entry node 是一个结构化的存储。就拿list来说，entry node 前后包含了一个指针，形成双向链表，中间是包含的数据。数据节点包含三个部分，当前字符串所用空间，当前字符串所剩空间，当前字符串的值。

这些松散性的结构带来了一定的存储开销。redis提供了一个ziplist（压缩表）的功能，一旦开启压缩表那么原本用entry node的存储结构将使用序列化的字节序列来存储。这有优势也有劣势，优势就是存储空间少了，劣势就是不灵活了。存储空间少了，不仅带来空间利用率高，还有一个大的优势就是执行master\slave repliaction 或者BGSAVE的时候都是有好处，存储或者带宽都会消耗小。

set背后使用hash来保证不会存在重复的可以。当对set使用短结构存储的时候，redis将使用整数集合编码进行存储。

还有一点，如果我们设置的最大压缩限制超过之后redis将恢复entry node链表的是方式存储。因为，如果你的压缩表数据太多，读取或者修改就会很影响性能。可能需要对整个压缩列表进行解码、编码操作，等等。

2.redis 事务

redis 提供transaction 功能，你可以使用事务来处理一些数据一致性要求比较敏感的场景。redis的事务是没有所谓的隔离级别这一说的，性能是才是它追求的目的。事务所包含的所有command，是一个接着一个被执行，这执行结束之前其他客户端的所有请求都被block住。

使用redis事务比较简单，它有一个表示事务开始的命令 multi，然后使用exec提交。

有两点需要注意，在没有执行exec的时候所有在multi之后的命令都不会被执行。默认情况下，redis收到multi命令之后会将用户接下来的提交都暂时性的存放在一起queue里，直到接收到exec命令才会去执行queue里的所有命令。还有一点，有些redis客户端为了提高性能，会将multi与exec的所有命令都暂时存在redis客户端本地，然后一次性提交。这其实基于的是redis的pipeline 。

你也可以单独使用pipeline，而不使用multi、exec事务。只是为了减少redis key的传输次数而已。如果不会产生数据一致性问题是可以这么做的。

说到redis事务就不得不提redis事务的性能问题，所以现在结合redis来开发分布式事务来提供性能也是很常见的方案：https://github.com/Plen-wang/redis-lock 供参考。

3.redis两种持久化原理(RDB、AOF)

redis支持两种方式来持久化数据，第一种：snapshotting(镜像或快照）也称RDB、第二种：AOF(append-only file 文件追加)。

RDB：镜像模式就是将某个时间段的所有内存数据直接写入硬盘。

AOF：将执行的写命令增量复制到硬盘里面。

这两种其实就是不同的侧重，RDB是数据持久化，AOF是命令持久化，数据持久化比较直接，还原的时候直接恢复数据即可。命令持久化恢复的话需要执行一遍命令才行。

redis执行持久化操作取决于两方面：默认是根据持久化配置来执行，还有就是用户手动触发。手动触发有两个命令：

SAVE:会block所有的用户操作，知道持久化结束。
BGSAVE:后台子进程执行，linux中使用fork命令开启一个子进程副本，这个子进程副本与主进程共用一套内存空间，直到主进程或子进程对内存进行修改，被修改之后的内存区域将被子进程复制出来单独使用。

RDB持久化的问题是会存在丢失数据的可能，AOF持久化最多丢失一秒内的命令。所以持久化结合这两种来执行会在数据完整性和性能之间取的平衡。

4.redis 主从复制的基本原理

redis提供复制功能，这有很多好处。容灾、扩展读写性能。

有两个点需要注意：从服务器一旦进行同步数据时会清空自己的所有数据。redis不支持主主复制。

复制过程大致如下：

1.从服务器连接主服务器，发送SYNC命令。
2.主服务器执行BGSAVE，并使用缓存区记录BGSAVE之后执行的所有写命令。
3.BGSAVE执行完毕之后，向从服务器发送快照文件。从节点丢弃所有本实例数据。载入主服务器发送过来的快照数据。
4.快照发送完毕之后开始发送缓存区中的写命令。从节点开始向常规的操作一样执行增量复制。
5.开始进入常规的复制操作。

有个问题需要分享下，redis一旦占用的内存哪怕我们清楚了key，这部分内存还是无法还给操作系统的，这是redis的设计策略。虽然从redis info命令中查看的内存大小是没用占用的，但是操作系统无法使用这部分内存。

还有个问题，所有redis服务器如果要被复制数据，也就是要执行BGSAVE，那么至少需要保留30%-45%的空余内存。因为BGSAVE执行的时候可能需要copy key出来，如果这个时候写命令过多还需要给缓存区留有点空间。

5.redis 扩展读性能

有了主从复制功能之后实际上扩展读性能是比较容易的。利用主从链，将同步操作分派给同步节点，这样主节点就可以专门只负责写命令处理。

复制节点专门处理复制功能，最下游的读节点专门来接受读请求。如果考虑主节点宕机问题，可以开启复制节点的持久化功能，或者开启读节点的部分节点也行。主要是为了防止宕机可以快速恢复master。如果是异地双活，可以把左右两边的所有读节点开启持久化，左边一个机房，右边一个机房，既可以双活也可以恢复。（实际情况没有这么简单，只是个思路）

读节点是不能够执行写入命令的，这个才能保证将来的数据复制。

6.redis HA方案（sentinel）

redis 的高可用方案基于自己的一套sentinel 集群来管理。

sentinel cluster 保持对redis集群的监控，如果sentinel-1发现master在某个时间段内没有响应ping命令，就主观断定是可能宕机了。sentinel-2、sentinel-3如果都发现master是无响应的，那么三个投票断定master是客观宕机了，做一次master、slave切换。同时会通过sentinel-sh脚本进行一些通知操作。

当然，redis-HA方案有好几种，我们也可以用keepalived、VIP来实现，将master、backup、slave分离开来，master、backup自动VIP切换。

redis 简单使用总结