YMatrix

前言

做数据分析的朋友，可能都遇到过这样的崩溃场景：明明只是一个大表 Join 查询，数据库却像卡壳的老电视——外表数据量动不动上千万甚至亿级，扫描、传输、计算的耗时像滚雪球般越滚越大，等了 5 分钟还在“转圈圈”！

今天就来聊聊专治这类“大表 Join 慢”的“性能加速器”——YMatrix Runtime Filter（运行时过滤器），它能让查询速度提升 10 倍以上，甚至在部分场景下快 20 倍！

先回忆下传统 Hash Join 的逻辑：数据库会先扫描较小的内表（比如用户表），用它的数据建一个“Hash 字典”（就像提前整理好的目录）；然后再扫描大外表（比如订单表），逐行查这个“字典”找匹配的数据。

问题来了：大外表可能有上亿行数据，但实际能匹配上的可能只有几千行。剩下的 99%数据，数据库还是得硬着头皮扫描、传输、计算——这些全是无效消耗，白白浪费时间和资源！

Runtime Filter 的聪明之处在于：不等扫描大外表，先用内表的数据生成一个“有效键集合”，直接告诉大外表“只保留这些键对应的数据”。

举个例子：

现在需要统计来自中国的订单数量。

YMatrix 的实测数据最有说服力：

总结下来，大表 Join+ 小结果集时，Runtime Filter 的效果最明显 ——外表数据量越大、实际匹配的结果越少，它的“过滤精准度”就越高！

YMatrix 的 Runtime Filter 设计得非常“用户友好”，默认是开启的。掌握这 3 个小技巧，能让你更高效地用它：

开关控制：默认开启，临时关闭/开启只需一条 SQL 命令就能搞定（比如 SET enable_runtime_filter = off;）。看执行计划：用 EXPLAIN (VERBOSE) 查；
看执行计划，如果出现“local/global”（本地/跨节点传输）、“initiator/target”（发起方/接收方）等关键词，说明它已经在工作了。
验证效果：用 EXPLAIN ANALYZE 执行查询，扫描节点会显示 “inputrows/outputrows”（进入/通过过滤器的行数）。如果 outputrows 远小于 inputrows（比如 1000 万行→2 万行），说明它跳过了 99.8%的无效数据！