YMatrix

前言

你是否遇到过这样的场景？企业的数据分散在 ERP 系统（存储订单）、HDFS（存储生产日志）、Oracle 数据库（存储客户信息）、S3 对象存储（存储产品图片）……

业务需要分析"某地区客户订单量与生产日志的关联"，传统做法是：先通过ETL将各系统数据搬到数仓，再清洗、整合，最后才能出报表。但问题来了——数据量越大，搬迁耗时越长；数据更新越快，报表越难"保鲜"；多系统格式不一，ETL 维护复杂度直线上升……

这正是现代企业数仓/湖仓建设中最头疼的"数据孤岛"难题。而 YMatrix 的数据联邦核心组件PXF（Platform Extension Framework），正成为破解这一难题的"关键钥匙"。

01 不用搬数据，也能跨源分析：PXF 的"魔法"是什么？

简单来说，PXF 是 YMatrix 的"数据桥梁"，通过可插拔的连接器，在不搬迁数据的前提下，让 YMatrix 直接以标准 SQL 访问关系库（如Oracle、MySQL）、大数据生态（如HDFS、Hive）、对象存储（如S3、OSS）等数十种异构数据源。

举个例子：

你想在 YMatrix 里直接 JOIN Oracle 的客户表和 HDFS 的生产日志表，只需创建一张外部表，告诉PXF"数据存在哪里、用什么格式"，后续查询就像操作本地表一样简单。数据不用跨网络搬迁，分析直接基于最新状态，报表从 "T+1" 变 "秒级更新"，ETL 团队的维护压力也大幅降低。

典型可接入的数据源

02 从读 HDFS 到连 Oracle：PXF 的"实战场景"有多香？

PXF的价值，藏在一个个具体的业务需求里。我们选取两个典型场景，看它如何解决实际问题。

场景1：HDFS 日志与数仓表的实时联合分析

某电商企业需要实时分析 "用户点击日志→加购→下单" 的转化链路。

❎ 传统方案：每天凌晨通过 ETL 将 HDFS 文本文件导入数仓，第二天才能分析。

✅ PXF 方案：

优势：

无需等待 ETL，分析基于最新数据；
支持 Hive 分区表（通过*自动识别分区），简化建表操作；
修改HDFS配置后重启 PXF 即可生效，运维更简单。

场景2：Oracle 生产数据的"零搬迁"聚合查询

某能源企业的生产数据存储在 Oracle 数据库（表量亿级），业务需要按区域统计月销售额。若直接拉取全表到YMatrix，网络传输耗时且占用存储。

PXF 方案：

优势：

避免亿级数据搬运，网络传输量从 GB 级降至 KB 级；
SQL 逻辑保存在 PXF 配置中，避免暴露 Oracle 表结构，安全性更高。

03 为什么是 PXF？它的技术底气在哪里？

PXF 能成为 YMatrix 数据联邦的"核心引擎"，离不开其设计上的三大亮点：

可扩展的插件架构：

基于Apache Tomcat + Spring框架，支持通信层（接收请求）、执行层（拆分数据分片、读写数据）、插件层（适配不同数据源）的分层设计。用户可自定义连接器，灵活扩展新数据源。

并行访问的高效性：

每个 YMatrix 的 Segment 节点独立运行 PXF 进程，多节点并行读取外部数据分片（如 HDFS 文件块、Oracle 表分区），分析性能随集群规模线性提升。

谓词下推的智能优化：

若 YMatrix 与外部数据源（如 Oracle）的字段类型匹配，PXF会将过滤条件（如 WHERE region='EAST'）直接下推到数据源执行，减少数据传输量；类型不匹配时则本地过滤，兼顾灵活性。

04 写在最后：PXF让数仓建设"轻装上阵"

在数据量爆炸式增长的今天，"搬数据"的传统数仓建设模式已显疲态。PXF 通过"跨源统一分析、低搬迁成本、近实时查询"的特性，让企业无需为每个数据源单独建仓，也不用维护复杂的 ETL 流程。无论是连接 HDFS 实现湖仓一体，还是对接 Oracle 等业务系统实现实时联动，PXF都在重新定义"数据可用"的边界。

如果你也在为数据孤岛发愁，不妨试试 YMatrix 的 PXF —— 让数据留在该留的地方，让分析发生在该发生的时刻。

YMatrix 如何使用 PXF，访问官网文档查看： https://ymatrix.cn/zh/doc/6.6/dataquery/pxf_hdfs

Previous：某保险集团车险部门基于 YMatrix 的海量时序数据分析实战

Next：YMatrix 5.0 与天翼云完成产品兼容性认证

Smart Manufacturing at Scale with YMatrix HTAP: Real-Time Ingestion & Unified Analytics

YMatrix HTAP Transforms Month-End Closing for a 16,000-Store Pharma Chain

Xiaomi and YMatrix Tackle the Big Data Challenge in 3C Smart Manufacturing

Why Are Large-Table Joins Such a Performance Bottleneck? Accelerating Queries with the YMatrix Runtime Filter

From Greenplum to YMatrix: Migrating Core Business Data for a Leading Power-Battery Manufacturer