YMatrix — гиперконвергентная база данных корпоративного уровня

Что такое YMatrix?


YMatrix — это гиперконвергентный продукт базы данных, разработанный компанией 4D Matrix (YMatrix) на основе классических открытых баз данных PostgreSQL и Greenplum. Помимо превосходных характеристик в сценариях обработки временных рядов, он также поддерживает традиционные случаи использования, такие как обработка транзакций в режиме онлайн (OLTP) и аналитическая обработка в режиме онлайн (OLAP).
YMatrix отвечает корпоративным требованиям к высокой доступности, безопасности, высокой производительности, автоматизированной эксплуатации, визуальной установке и обработке данных, обеспечивая надежное развертывание для корпоративных пользователей.
Его основная ценность заключается в экономичности, простоте использования, высокой производительности чтения/записи, высокой эффективности хранения и высокой доступности.
YMatrix также предлагаетcommunity-версию — ваш опыт и отзывы приветствуются.

Каковы основные функции YMatrix?


YMatrix предоставляет следующие ключевые функции:

  1. Гиперконвергентная архитектура
    Гиперконвергентная архитектура YMatrix решает проблему «информационных островов», характерную для традиционных баз данных, обеспечивая принцип «одна база данных — множество применений». Это достигается за счёт двух основных компонентов: микро-ядер и MPP (массивно-параллельной обработки).

    • Микро-ядро: В YMatrix микро-ядро включает в себя движок хранения и движок выполнения. Разные микро-ядра оптимизированы под различные сценарии. Например:

      • OLTP микро-ядро (движок хранения HEAP + движок выполнения Volcano) подходит для транзакционных (TP) нагрузок.
      • Микро-ядро временных рядов (движок хранения MARS2 + векторизованный движок выполнения) подходит для нагрузок с временными рядами.
        Движок хранения у микро-ядра, как правило, фиксирован, а движок выполнения выбирается на основе оценки стоимости, выполненной оптимизатором. Таким образом, вы можете выбирать оптимальные комбинации плагинов для различных бизнес-сценариев, обеспечивая быстрое и гибкое расширение базы данных без потери стабильности системы.
    • Распределённая MPP-архитектура, также известная как архитектура Shared-Nothing. Это означает системы с двумя или более процессорами, которые совместно работают над одной операцией, каждый из которых имеет собственную память, операционную систему и диск. YMatrix использует эту высокопроизводительную архитектуру для распределения нагрузки базы данных и параллельного использования всех системных ресурсов при обработке запросов, обеспечивая превосходную производительность.

  2. Высокая производительность
    YMatrix демонстрирует высокую производительность во всех сценариях, включая вставку данных, запросы по временным рядам, аналитику OLAP, машинное обучение (ML) и возможности OLTP. Основные аспекты:

    • Вставка данных: MatrixGate, инструмент потоковой вставки, поддерживает высокоскоростную загрузку различных типов данных. Благодаря таким функциям, как высокая параллельность, распределённая обработка, потоковая и пакетная загрузка, он превосходит ожидания по вставке данных в реальном времени в корпоративных сценариях с временными рядами, обеспечивая полные гарантии транзакционности.

    • Производительность запросов: Поддерживает гибридное хранение по строкам и столбцам. Основан на высокоэффективном сжатии MARS2 и использует оптимизатор на основе стоимости (CBO), чтобы выбрать наиболее эффективный план выполнения. Начиная с версии 5.0, векторизованный движок выполнения включён по умолчанию. Строгие тесты с использованием таких бенчмарков, как SSB (Star Schema Benchmark) и TSBS (Time Series Benchmark Suite), подтверждают, что YMatrix обеспечивает производительность запросов, значительно превосходящую аналогичные продукты.

  3. Высокая доступность

    • Автоматическое переключение при отказе: Благодаря новому механизму автоматизированной эксплуатации YMatrix (начиная с версии 5.0), при отказе главного узла кластера (Master) или узла данных (Segment) система автоматически переключается на резервный узел, обеспечивая бесшовное переключение.
    • Потоковая репликация: Узлы Master и Segment поддерживают потоковую репликацию для обеспечения высокой доступности данных.
  4. Простота и удобство использования

    • Графическая установка: Разверните кластер за 10 минут; протестируйте операции записи и запроса временных рядов за 3 минуты.
    • Графический интерфейс управления и мониторинга: Простой интерфейс с подробным отображением информации. Позволяет масштабировать кластер одним щелчком мыши за секунды.
  5. Безопасность корпоративного уровня
    YMatrix предоставляет всесторонние механизмы безопасности доступа, включая аутентификацию, контроль привилегий, шифрование, аудит и управление ресурсами.

    • Аутентификация: Поддерживает несколько методов, включая доверительную аутентификацию, аутентификацию по паролю и PAM-аутентификацию.
    • Контроль привилегий: Реализует управление доступом на основе ролей (RBAC), упрощая связь пользователей и разрешений.
    • Шифрование: Предоставляет многоуровневые опции шифрования:
      • Шифрованное хранение паролей
      • Шифрование на уровне столбцов
      • SSL-аутентификация хоста
      • Шифрование на стороне клиента
      • Шифрование сетевых данных
      • Шифрование паролей в сетевом трафике
      • Шифрование табличных пространств
    • Аудит: Фиксирует события входа/выхода пользователей и активность базы данных. Уровень аудита можно настроить в соответствии с требованиями безопасности.
    • Контроль ресурсов: Обеспечивает строгие ограничения доступа по IP-адресам для поддержки доверенных источников; позволяет настраивать максимальное количество одновременных подключений на пользователя; включает политики тайм-аута подключения по умолчанию.
  6. Полноценная экосистема

    • Полная совместимость с инструментами верхнего и нижнего уровней экосистемы PostgreSQL / Greenplum.

Какие бизнес-сценарии поддерживает YMatrix?


  • Сложная обработка данных, требующая конвергентной архитектуры
    В традиционных промышленных предприятиях огромные объёмы данных часто распределены между отделами, системами и приложениями из-за стратегии организации, архитектурного проектирования или усилий по цифровой трансформации. Эти изолированные хранилища данных образуют «информационные острова», которые не могут взаимодействовать или эффективно использоваться. Помимо технической сложности, такие «острова» серьёзно ограничивают конкурентные преимущества в бизнесе. Изоляция данных значительно затрудняет управление, операции и рост предприятия — это критическое препятствие на пути цифровой трансформации.
    Гиперконвергентная архитектура YMatrix успешно внедрена в реальных производственных средах, таких как платформы данных на заводах, корпоративные хранилища данных, интеллектуальные подключённые автомобили и эксплуатация IoT-устройств. Она значительно снижает технические барьеры, связанные с выбором, закупкой, использованием и обслуживанием, получая положительные отзывы. Например, в умном производстве одна база данных YMatrix может собирать, хранить, вычислять, моделировать, запрашивать и анализировать данные из систем ERP (планирование ресурсов предприятия), MES (системы управления производством) и оборудования.

  • Сценарии с потребностью в сложном анализе временных рядов
    Данные временных рядов лежат в основе IoT, подключённых автомобилей, промышленного интернета и умных городов. Их ключевая особенность — обработка в реальном времени, что предъявляет высокие требования к производительности записи и хранения базы данных. Предприятиям необходимо решать задачи, такие как поддержание производительности при контроле затрат, безопасное и быстрое масштабирование ёмкости для предотвращения накопления данных и снижение технических барьеров для быстрого и точного реагирования на изменяющиеся потребности в данных.
    YMatrix оптимизирован для нагрузок с временными рядами. Используя физическую сортировку, асинхронную выгрузку и пакетную вставку движка MARS2, в сочетании с возможностями MatrixGate по высокой параллельности, распределённой обработке, потоковой и массовой записи, YMatrix превосходит ожидания по вставке данных в реальном времени, высокоскоростной записи, запросам в реальном времени и транзакционной согласованности.
    YMatrix поддерживает графическое масштабирование — простые операции позволяют расширяться за секунды. Он также поддерживает плавное масштабирование без остановки сервиса, обеспечивая непрерывность бизнеса, минимизируя потери из-за простоев и снижая риски.

  • Масштабные IoT-сценарии с большим количеством устройств
    К типичным масштабным IoT-сценариям относятся умные кампусы, умные дома, интеллектуальный транспорт, умные водные системы, умное сельское хозяйство и умная метеорология. Большое количество устройств генерирует огромные объёмы данных, требующие эффективной записи, хранения и запросов. Стоимость хранения (коэффициент сжатия) и эффективность доступа (скорость распаковки) являются решающими факторами при построении стабильной инфраструктуры данных. Производительность быстрой вставки и запросов в реальном времени напрямую влияет на пользовательский опыт.
    Помимо поддержки кластеров масштаба PB, YMatrix использует запатентованную технологию сжатия Chain-Encoding. Она позволяет бизнес-пользователям выбирать оптимальные схемы кодирования, адаптированные к характеристикам отдельных столбцов, достигая наилучшего соотношения цена/производительность. Это снижает затраты предприятий на хранение более чем на 50%, делая хранение больших объёмов данных управляемым.
    В сочетании с возможностями аппаратного обеспечения и функциями MatrixGate по высокой параллельности, распределённой обработке, потоковой и массовой записи, YMatrix достигает вставки данных за секунды.
    Благодаря полной векторизации (начиная с версии 5.0), YMatrix в тестах показывает производительность SSB на 1,24x выше, чем у ClickHouse, обеспечивая мировой уровень производительности запросов с высокой пропускной способностью и низкой задержкой.

  • Традиционные OLAP-сценарии хранилищ данных
    YMatrix совместим с экосистемой PostgreSQL/Greenplum и поддерживает классические OLAP-сценарии в таких отраслях, как финансы, телекоммуникации, государственные учреждения, энергетика и производство. Он обеспечивает бизнес-аналитику (BI) и аналитику отчётности.
    Эти сценарии обычно включают не временные данные и полагаются на экосистему Hadoop для производства и потребления данных: исторические данные хранятся в Hadoop, а метрики отчётов рассчитываются с помощью Spark — это сложный процесс.
    YMatrix упрощает этот рабочий процесс, интегрируя обработку структурированных и неструктурированных данных, федеративный доступ к данным, графическую интеграцию потоков Kafka и разделение «горячих» и «холодных» данных. Он предоставляет комплексное решение для потребления данных, а также механизмы автоматического восстановления после сбоев — безопасное, простое и удобное в использовании.