图解 Redis 08｜HyperLogLog：为什么 12KB 能估算海量 UV

HyperLogLog 最迷人的地方，是它能用很小的空间估算海量 UV。也正因为这个特性，它常被误用成「低成本去重集合」。

关键区别在于：Set 保存成员，所以能判断某个用户是否出现过；HyperLogLog 不保存成员，只保存一组统计寄存器，所以只能回答大概有多少个不同元素。

先把机制边界说清楚

这一篇只讨论基数估算。只要你的业务需要精确成员、可回溯明细、计费或风控判断，HyperLogLog 就不是正确工具。

HyperLogLog 的寄存器模型

上面这张图先把主线铺开：用哈希尾部零分布估算不同元素数量。读 Redis 这类系统，最重要的是别只停在命令接口，要继续追问它在内存里是什么形状、在主线程上走多远、失败时会留下什么状态。

这些机制放在一起看，就能把「这个命令能不能用」改成「这个命令在当前数据规模下还便不便宜」。Redis 的很多坑，不是命令本身错了，而是数据规模和访问方式已经越过了它的舒适区。

HyperLogLog 的边界是「我只关心数量，而且能接受误差」。一旦要查成员是否存在，就应该换 Set、Bitmap 或明细表。

HyperLogLog 不是小号 Set，而是一个只回答「大概多少」的统计器。

关于十三Tech

我是十三，All in AI Agent 方向的架构师，专注 AI 工程实践。

我相信 AI 是程序员的最佳搭档，也希望帮助每一位开发者更好地驾驭 AI。

如果你想继续跟完这套「图解 Redis」，欢迎关注公众号 「十三Tech」。后续会继续按数据结构、底层机制、持久化、高可用和实战排查这条线更新。

十三Tech公众号二维码