图解 RabbitMQ 05｜可靠性三问：不丢、不重、有序，Rabbit 怎么答

前面几篇把 AMQP 模型和消费语义立起来了。从这一篇开始，进入消息队列最核心的工程命题——可靠性。

几乎所有用 RabbitMQ 的人，最终都会被三个问题折磨：消息丢了怎么办？消息重复了怎么办？消息乱序了怎么办？这三个问题合起来，就是消息队列可靠性的全部。它们的难度不在「知道有这个问题」，而在分清哪部分能靠 MQ 本身解决，哪部分必须靠业务设计解决。混淆这两者，就会在错误的地方使劲——比如指望 RabbitMQ 保证全局有序，或者指望它自动去重。

这一篇把三个问题逐个拆开，说清楚 RabbitMQ 能给到什么程度的保证，以及做不到的部分该由谁补。

第一问：消息不丢

「消息丢了」是可靠性里最严重的问题——尤其在订单、支付这类场景，丢一条消息就是一笔账目对不上。要让消息不丢，得排查消息生命周期的每一个环节，因为消息可能在任何一处丢失。

一条消息从生产到消费，经过三个环节：生产者发到 broker、broker 存储和路由、broker 投递给消费者。每个环节都可能丢：

环节一：生产者到 broker。 生产者发出消息后，如果网络中断，或者 broker 还没收到就挂了，消息就丢在生产途中。这个环节的解法是 publisher confirm（生产者确认）。开启 confirm 模式后，broker 收到并持久化消息会回一个 ack 给生产者；如果 broker 没收到或没持久化成功，回 nack。生产者根据这个回执决定重发。没有 confirm，生产者根本不知道消息有没有到 broker。

环节二：broker 存储。 消息到了 broker 后，默认只存在内存里。如果 broker 此时崩溃重启，内存里的消息全部丢失。解法是消息持久化 + 队列持久化。消息要设 deliveryMode=2（持久化），队列要声明为 durable=true。两个都要——只持久化消息不持久化队列，broker 重启后队列都没了，消息无处可去；只持久化队列不持久化消息，消息还是只在内存。更进一步，用 Quorum Queue 替代经典队列，消息在多个节点都有副本，单节点故障也不丢。

环节三：broker 到消费者。 broker 把消息投递给消费者后，如果用 auto-ack，消息立刻从队列删除；此时消费者还没处理完就崩溃，消息就永久丢了。解法是 manual-ack——消费者处理完业务逻辑再 ack，没 ack 的消息在消费者宕机后会重新投递。

把三个环节的解法串起来，就是 RabbitMQ 「消息不丢」的完整闭环：confirm（生产端）+ 持久化（broker 端）+ manual-ack（消费端）。这三个机制缺一不可，少一个就有一个丢失窗口。

消息不丢的三段闭环

第二问：消息不重

比「消息丢了」更隐蔽的问题是「消息重复」。丢失是显性的（业务数据少了），重复是隐性的（业务数据多了，而且往往不容易立刻发现）。

RabbitMQ 里消息为什么会重复？根本原因是 「至少一次投递（at-least-once）」 语义。RabbitMQ 为了保证不丢，会在「不确定消费者有没有处理完」时选择重新投递。具体触发重复的场景：

消费者处理完了消息，但 ack 在网络传输中丢了，broker 没收到 ack，于是重投。
消费者处理到一半，还没 ack 就崩溃了，broker 重投给另一个消费者。
生产者开了 confirm，但 ack 回来得慢，生产者超时重发，结果原消息其实已经到了。

这些场景的共同点是：重投是 RabbitMQ 保证不丢的必要代价。它宁可重复，也不愿丢失。所以「消息重复」不是 RabbitMQ 的 bug，而是它的设计选择——在网络这种不可靠的环境里，要做到「既不丢也不重」成本极高，所以业界普遍接受 at-least-once，把去重交给业务。

既然 RabbitMQ 不保证不重复，去重就只能靠业务幂等。常见做法：

唯一键去重：每条消息带一个全局唯一的业务 ID（bizId），消费者处理前先查这个 bizId 有没有处理过（存 Redis 或数据库），处理过就跳过。
状态判断：消费时检查业务实体的状态。比如「订单已支付」的消息，消费前看订单状态，如果已经是「已支付」，说明处理过了，跳过。
数据库唯一约束：利用数据库的唯一索引兜底。重复消息插入会撞唯一约束失败，自然被挡住。

这里要强调一个判断：幂等是业务设计问题，不是 MQ 配置问题。指望 RabbitMQ 帮你去重是不现实的。设计消费逻辑时，默认「同一条消息可能被投递多次」，让消费逻辑天然幂等，这才是正解。

第三问：消息有序

「消息乱序」是三个问题里最棘手的。它指的是：业务上要求 A 先于 B 处理（比如「创建订单」必须在「支付订单」之前），但实际消费时 B 反而被先处理了。

RabbitMQ 对顺序的保证是有条件的、局部的：

同一个队列内，消息按入队顺序消费。这是 RabbitMQ 的承诺。
同一个队列有多个消费者时，消息按出队顺序分发给各消费者，但各消费者的处理完成顺序不保证。因为消费者处理速度不同，先分到的可能后处理完。

所以 RabbitMQ 能保证的顺序边界是：同一个队列 + 单消费者。一旦引入多消费者（为了并发吞吐），顺序就可能在消费端被打乱。

要保证业务上的顺序，常见做法：

按业务 key 贴到同一个队列。把需要保序的消息（比如同一个订单的事件）用相同的 RoutingKey 路由到同一个队列。但这个队列如果只挂一个消费者，吞吐会受限于单消费者速度。
用 Quorum Queue 的单消费者模式。Quorum Queue 在单消费者下能严格保序，且可靠性更高。
业务层兜底。不依赖 MQ 保序，而是在消费逻辑里做状态校验——处理「支付」消息时先查订单是否已「创建」，没创建就延迟重试或丢弃。

需要特别说明的是：跨队列、跨 Exchange 的全局有序，RabbitMQ 不保证，也几乎做不到。如果业务强依赖全局有序（比如所有订单事件必须严格按时间顺序处理），那要么牺牲并发（全走单队列单消费者），要么换思路（业务层用状态机保证因果）。指望通过配置 RabbitMQ 实现全局有序，是走进死胡同。

问题	RabbitMQ 的保证	需要业务补的
不丢	confirm + 持久化 + ack 三段闭环	无（正确配置即可）
不重	不保证，at-least-once 语义	幂等设计（唯一键、状态判断）
有序	单队列单消费者内有序	多消费者/跨队列的顺序由业务状态机保证

一个反直觉的点：可靠性是有代价的

把三个问题都做到位，可靠性是高了，但代价是性能。每加一层保障，吞吐就降一档：

开 confirm：每条消息多一次网络往返（等 ack），吞吐下降。
开持久化：消息要写盘，比纯内存慢一个数量级。
manual-ack：消费者处理完才能拿下一条（配合小 prefetch），并发度受限。

所以可靠性不是「全开」就最好，而是按业务对丢失的容忍度分级配置：

核心交易（订单、支付）：三段全开，宁可慢不能错。
业务通知（邮件、推送）：持久化 + ack，confirm 可选，重复无所谓。
日志采集：auto-ack 甚至不持久化，追求吞吐。

这种分级配置的能力，是 RabbitMQ 灵活性的体现，也是它需要更多运维心智的原因。

收束：不丢靠 MQ，不重和有序靠业务

这一篇的核心是一个分清边界的判断：消息不丢，主要靠 RabbitMQ 的机制（confirm + 持久化 + ack）正确配置；消息不重和有序，主要靠业务设计（幂等 + 状态机）兜底。

把这条边界划清楚，就不会在错误的地方使劲——不会指望 RabbitMQ 帮你去重，也不会因为「消息可能重复」就否定 MQ 的价值。下一篇会把不丢这部分的机制再展开一层，讲清楚 confirm、return、ack 这三个机制怎么配合，构成 RabbitMQ 的可靠投递闭环。

关于十三Tech

我是十三，All in AI Agent 方向的架构师，专注 AI 工程实践。我相信 AI 是程序员的最佳搭档。想跟完这套「图解 RabbitMQ」，欢迎关注公众号 「十三Tech」。

十三Tech公众号二维码