你是否遇到过这样的场景?企业的数据分散在 ERP 系统(存储订单)、HDFS(存储生产日志)、Oracle 数据库(存储客户信息)、S3 对象存储(存储产品图片)……
业务需要分析"某地区客户订单量与生产日志的关联",传统做法是:先通过ETL将各系统数据搬到数仓,再清洗、整合,最后才能出报表。但问题来了——数据量越大,搬迁耗时越长;数据更新越快,报表越难"保鲜";多系统格式不一,ETL 维护复杂度直线上升……
这正是现代企业数仓/湖仓建设中最头疼的"数据孤岛"难题。而 YMatrix 的数据联邦核心组件PXF(Platform Extension Framework),正成为破解这一难题的"关键钥匙"。
简单来说,PXF 是 YMatrix 的"数据桥梁",通过可插拔的连接器,在不搬迁数据的前提下,让 YMatrix 直接以标准 SQL 访问关系库(如Oracle、MySQL)、大数据生态(如HDFS、Hive)、对象存储(如S3、OSS)等数十种异构数据源 。

举个例子:
你想在 YMatrix 里直接 JOIN Oracle 的客户表和 HDFS 的生产日志表,只需创建一张外部表,告诉PXF"数据存在哪里、用什么格式",后续查询就像操作本地表一样简单。数据不用跨网络搬迁,分析直接基于最新状态,报表从 "T+1" 变 "秒级更新",ETL 团队的维护压力也大幅降低。
典型可接入的数据源

PXF的价值,藏在一个个具体的业务需求里。我们选取两个典型场景,看它如何解决实际问题。
某电商企业需要实时分析 "用户点击日志→加购→下单" 的转化链路。
❎ 传统方案:每天凌晨通过 ETL 将 HDFS 文本文件导入数仓,第二天才能分析。
✅ PXF 方案:

优势:
某能源企业的生产数据存储在 Oracle 数据库(表量亿级),业务需要按区域统计月销售额。若直接拉取全表到YMatrix,网络传输耗时且占用存储。
PXF 方案:

优势:
PXF 能成为 YMatrix 数据联邦的"核心引擎",离不开其设计上的三大亮点:
基于Apache Tomcat + Spring框架,支持通信层(接收请求)、执行层(拆分数据分片、读写数据)、插件层(适配不同数据源)的分层设计。用户可自定义连接器,灵活扩展新数据源。
每个 YMatrix 的 Segment 节点独立运行 PXF 进程,多节点并行读取外部数据分片(如 HDFS 文件块、Oracle 表分区),分析性能随集群规模线性提升。
若 YMatrix 与外部数据源(如 Oracle)的字段类型匹配,PXF会将过滤条件(如 WHERE region='EAST')直接下推到数据源执行,减少数据传输量;类型不匹配时则本地过滤,兼顾灵活性。
在数据量爆炸式增长的今天,"搬数据"的传统数仓建设模式已显疲态。PXF 通过"跨源统一分析、低搬迁成本、近实时查询"的特性,让企业无需为每个数据源单独建仓,也不用维护复杂的 ETL 流程。无论是连接 HDFS 实现湖仓一体,还是对接 Oracle 等业务系统实现实时联动,PXF都在重新定义"数据可用"的边界。
如果你也在为数据孤岛发愁,不妨试试 YMatrix 的 PXF —— 让数据留在该留的地方,让分析发生在该发生的时刻。
YMatrix 如何使用 PXF,访问官网文档查看: https://ymatrix.cn/zh/doc/6.6/dataquery/pxf_hdfs
From Greenplum to YMatrix: Migrating Core Business Data for a Leading Power-Battery Manufacturer
PXF: Cross-Source Queries in Seconds with YMatrix
How a Leading ERP Vendor Entered the AI Fast Lane — A YMatrix Field Story
How YMatrix Powers SVOLT’s Smart Factory Transformation
YMatrix HTAP Transforms Month-End Closing for a 16,000-Store Pharma Chain