YMatrix — «гиперконвергентная» база данных, которой доверяют крупные предприятия

YMatrix — это корпоративная распределённая база данных на основе PostgreSQL. Интегрируя возможности обработки временных рядов, аналитики (OLAP), транзакционной обработки (OLTP) и искусственного интеллекта в единую платформу, YMatrix обеспечивает поддержку полного спектра сценариев использования, низкую стоимость владения, высокую производительность, высокую доступность, простое масштабирование и соответствие стандартам безопасности. Благодаря своей «гиперконвергентной» архитектуре YMatrix решает проблемы сложных традиционных систем и высоких эксплуатационных затрат, предлагая предприятиям единое решение для хранения данных.

Поддержка полного спектра сценариев

Сценарии временных рядов

Оптимизированная для рабочих нагрузок с временными рядами, YMatrix обеспечивает высокую пропускную способность и глубоко настроена для приложений, таких как подключённые автомобили и умные производства. Поддерживает расширенные функции SQL, включая CTE и оконные функции, а также родные функции для временных рядов. Обеспечивает запись данных с нарушением порядка и пакетную запись в условиях сложных сетей. Масштабирование кластера без прерывания бизнес-процессов позволяет гибко наращивать объёмы хранимых данных. Холодные данные могут автоматически перемещаться в объектное хранилище, что значительно снижает затраты на хранение.

Аналитические сценарии

Поддерживает объёмы данных от терабайт до петабайт, обеспечивая надёжную и высокопроизводительную обработку данных и сервисные возможности для корпоративной отчётности и BI-приложений. Обладает высокой производительностью и отлично справляется с операциями соединения нескольких таблиц. Поддерживает продвинутые аналитические функции, такие как оконные функции и материализованные представления. Помимо традиционной пакетной обработки, YMatrix предлагает потоковый движок Domino, позволяющий выполнять обработку данных в реальном времени с помощью SQL — заменяя такие инструменты, как Flink или Spark.

Транзакционные сценарии

Обеспечивает полную поддержку ACID, гарантируя надёжность данных на уровне финансовых систем. Соответствует строгим требованиям по производительности, корректности и согласованности для критически важных систем, таких как финансы и ERP. Поддерживает хранимые процедуры, триггеры и аварийное восстановление между сайтами, что делает её подходящей для сложных OLTP-сценариев.

Сценарии с использованием ИИ

Позволяет выполнять векторный поиск для больших языковых моделей (LLM), помогая предприятиям быстро создавать агентов ИИ на основе бизнес-данных. Поддерживает выполнение PL/Python непосредственно внутри базы данных без необходимости использования Spark, что позволяет полностью использовать аппаратные ресурсы и повышает эффективность машинного обучения. Предоставляет возможности управления мультимодальными данными и гибридного поиска.

Ключевые преимущества

Поддержка полного спектра сценариев

Одна база данных для обработки временных рядов, аналитики, транзакций и задач ИИ сценарии
Полная поддержка ACID, соответствие стандарту SQL : 2016
Управление структурированными (реляционные таблицы), полуструктурированными (JSON, XML, Vector) и неструктурированными данными (текст, изображения, видео) с поддержкой смешанного поиска
Поддержка хранения векторов, векторных индексов и алгоритмов квантования для быстрой разработки «корпоративных агентов ИИ»

Низкая стоимость

Поддержка хранения по строкам (HEAP), по столбцам и гибридного хранения (MARS3)
Собственный алгоритм сжатия с цепочкой кодирования подбирает оптимальное сжатие для каждого типа и шаблона данных, достигая соотношения сжатия до 20:1
Поддержка автоматического многоуровневого хранения, позволяющего перемещать холодные данные в объектное хранилище (S3), снижая затраты на оборудование

Высокая производительность

Параллельные вычисления на нескольких узлах и ядрах для анализа пакетных данных
Высокопроизводительный приём данных с поддержкой записи с нарушением порядка и пакетной загрузки в сложных сетевых условиях
Интегрированная архитектура HTAP повышает производительность сложных запросов и аналитики внутри базы данных
Потоковый движок Domino обеспечивает потоковую обработку данных в реальном времени прямо в базе данных и быструю обработку, поддерживая аналитику с задержкой в секунды, в реальном времени и инкрементальную аналитику
Результаты аналитики в реальном времени динамически отражают изменения в данных

Высокая доступность

Состояние кластера управляется через сильно согласованное хранилище etcd
Высокая доступность уровня финансовых систем с автоматическим переключением в течение 3 секунд (Failover)
Поддержка кластеров аварийного восстановления и инкрементального резервного копирования и восстановления, обеспечивающих доступность данных в экстремальных условиях

Простое масштабирование

Поддержка онлайн-масштабирования кластера без простоев через CLI или графический интерфейс
Возможность масштабирования до более чем 100 узлов, подходит для обработки данных от терабайт до петабайт
Полная совместимость с экосистемой PostgreSQL/Greenplum и инструментами нижнего уровня

Безопасность и соответствие стандартам

Контроль доступа: управление доступом на основе ролей, безопасность на уровне строк и столбцов
Аутентификация: методы доверия, парольная и PAM-аутентификация
Шифрование: многоуровневое шифрование, включая шифрование хранилища (поддержка национального алгоритма SM4), шифрование на уровне полей, аутентификацию GSSAPI, шифрование на стороне клиента, шифрованную передачу по SSL, шифрование паролей между сетями и шифрование табличных пространств
Аудит безопасности: регистрация входов и выходов пользователей, а также активности в базе данных; уровень аудита настраивается в зависимости от требований безопасности
Контроль ресурсов: строгие ограничения по IP, настраиваемое максимальное количество одновременных подключений на пользователя, политики тайм-аута подключений по умолчанию

Расширенные компоненты

Визуальное управление — MatrixUI

MatrixUI — это графический инструмент управления и администрирования, разработанный для простоты использования и комплексного мониторинга.

Графическая установка: развёртывание кластера за 10 минут; имитация сценариев записи и запросов временных рядов за 3 минуты
Управление и мониторинг через GUI: проверка состояния кластера одним щелчком, мгновенное масштабирование, диагностика кластера, настройка приёма данных из Kafka, анализ нагрузки

Высокопроизводительный приём данных — MatrixGate

MatrixGate — высокопроизводительный загрузчик данных, который равномерно распределяет данные по всем сегментам для параллельной загрузки.

Поддержка различных источников и форматов данных
Поддержка пакетной и потоковой загрузки данных
Низкая задержка и высокая пропускная способность: достигает скорости загрузки в 100 раз выше за счёт использования полосы пропускания и сжатия данных
Поддержка UPSERT: эффективно обрабатывает слияние данных с нарушением порядка и пакетных данных, идеально подходит для потоковых сценариев с высокой пропускной способностью и низкой задержкой

Инкрементное резервное копирование — MatrixArchive

MatrixArchive фиксирует состояние работающего кластера YMatrix в определённый момент времени и сохраняет его в соответствии с заданными правилами, обеспечивая целостность и согласованность данных. Из этих файлов резервной копии можно восстановить полностью функционирующий кластер YMatrix, соответствующий состоянию исходного кластера на момент создания резервной копии.

Миграция по принципу «точка-точка» — MatrixShift

MatrixShift — специализированный инструмент миграции данных, поддерживающий полную, инкрементальную и условную миграцию между различными версиями Greenplum и YMatrix. Включает высокую эффективность (передача по принципу «точка-точка», оптимизация для малых таблиц, сжатие данных) и гибкую настройку.

Перенос данных из Greenplum в YMatrix
Миграция для всех сценариев: поддержка полной, инкрементальной и фильтрованной миграции
Эффективная передача по принципу «точка-точка»: прямая передача данных от сегмента к сегменту устраняет узкие места, характерные для традиционных методов миграции