Масштабируем Feature Engineering на Feast и Ray

Почему традиционные подходы к Feature Engineering становятся узким местом

В современных системах машинного обучения объём данных растёт экспоненциально, а требования к скорости подготовки признаков усиливаются. Классические решения — однопоточные скрипты, работающие в рамках ETL‑процессов — быстро достигают предела производительности. При росте числа источников данных, частоте обновления моделей и необходимости проводить онлайн‑вычисления в реальном времени, традиционные пайплайны начинают тормозить, вызывая задержки в обучении и деградацию качества предсказаний.

Ключевая проблема — отсутствие единого хранилища признаков (feature store) и распределённого вычислительного слоя, способного параллельно обрабатывать большие объёмы данных. Без этих компонентов каждое изменение в логике признаков требует повторного запуска тяжёлых ETL‑задач, что приводит к избыточным затратам времени и ресурсов.

Feast: централизованное хранилище признаков

Feast (Feature Store) — открытая платформа, предназначенная для управления жизненным циклом признаков от их создания до доставки в модели. Основные возможности Feast:

Разделение онлайн и офлайн слоёв. Офлайн‑хранилище (обычно на базе хранилищ данных, таких как BigQuery, Snowflake или Hive) используется для массовой генерации и переобучения признаков. Онлайн‑слой (Redis, DynamoDB, Cassandra) обеспечивает мгновенный доступ к последним версиям признаков при инференсе.
Версионирование и метаданные. Каждый набор признаков (feature view) снабжён схемой, тайм‑стемпами и информацией о происхождении. Это упрощает аудит и откат к предыдущим версиям.
Гарантированная согласованность. При запросе признаков в режиме онлайн система автоматически подбирает значение, актуальное на момент выбранного тайм‑стемпа, устраняя проблему «тренировочного дрейфа» между обучающим и продакшн‑окружениями.
Поддержка масштабируемых запросов. Через API можно получать признаки как отдельными запросами, так и пакетами, что снижает нагрузку на сеть.

Feast, будучи независимым от конкретных фреймворков машинного обучения, легко интегрируется в пайплайны, построенные на TensorFlow, PyTorch, Scikit‑Learn и др.

Ray: распределённый вычислительный движок

Ray — платформа для масштабируемых распределённых вычислений, предоставляющая простую модель программирования на основе задач (tasks) и актёров (actors). Ключевые свойства Ray, полезные для Feature Engineering:

Автоматическое распределение нагрузки. При запуске функции как задачи Ray автоматически распределяет её по доступным узлам кластера, учитывая ресурсы (CPU, GPU, память).
Поддержка библиотек данных. Ray Data (ранее Modin) позволяет работать с DataFrame‑подобными структурами, совместимыми с Pandas, но распределёнными по кластеру.
Интеграция с другими экосистемами. Через Ray Serve можно развернуть модели в виде микросервисов, а Ray Tune предоставляет возможности гиперпараметрической оптимизации.
Fault tolerance. При сбое узла Ray перезапускает задачи, сохраняя целостность пайплайна.

Для задач Feature Engineering Ray избавляет от необходимости вручную писать Spark‑скрипты или управлять Kubernetes‑подобными оркестраторами: достаточно объявить функцию трансформации и запустить её на кластере.

Архитектура совместного использования Feast и Ray

Сочетание Feast и Ray позволяет построить полностью масштабируемый энд‑то‑энд процесс подготовки признаков:

Инициализация источников данных. Источники (Kafka, S3, базы данных) читаются через Ray Data, превращая потоковые или батч‑данные в распределённые DataFrame.
Трансформация признаков. Пользовательские функции (feature functions) объявляются как Ray‑задачи. Каждая задача получает часть данных, применяет бизнес‑логики (агрегации, окна, энкодинг) и возвращает промежуточный набор признаков.
Запись в офлайн‑хранилище Feast. После трансформации результаты записываются в офлайн‑таблицу Feast через его клиентский API. При этом сохраняются тайм‑стемпы, необходимые для последующего онлайн‑выдачи.
Обновление онлайн‑слоя. По расписанию (например, каждый час) отдельный Ray‑актер читает новые версии признаков из офлайн‑таблицы и пишет их в онлайн‑хранилище (Redis). Этот процесс гарантирует, что инференс будет использовать самые свежие данные.
Подключение к моделям. При обучении модели или её обслуживании в продакшн‑среде приложение запрашивает признаки через Feast SDK, получая согласованные значения как в офлайн‑режиме (для обучения), так и в онлайн‑режиме (для инференса).

Такая схема устраняет дублирование кода, упрощает управление зависимостями и позволяет легко масштабировать каждый компонент независимо.

Практические рекомендации по внедрению

Выбор хранилища. Для офлайн‑части рекомендуется использовать колонковые хранилища (Parquet на S3, Delta Lake) — они позволяют быстро сканировать большие таблицы. Онлайн‑слой следует подбирать исходя из требований к латентности: Redis обеспечивает микросекундные ответы, а DynamoDB — более высокую доступность в распределённых гео‑региональных сценариях.
Размер батча в Ray. Оптимальный размер батча зависит от объёма данных и доступных ресурсов. Слишком маленькие батчи увеличивают накладные расходы на планирование задач, слишком большие — могут привести к переполнению памяти узла.
Версионирование feature view. При вводе новых признаков создавайте отдельный FeatureView с новой версией, а не меняйте существующий. Это упрощает откат и обеспечивает совместимость с уже обученными моделями.
Мониторинг и алерты. Интегрируйте метрики Ray (время выполнения задач, количество переоткрытых актёров) и Feast (время записи/чтения признаков) в систему наблюдаемости (Prometheus + Grafana). Это позволит быстро обнаруживать деградацию производительности.
Тестирование пайплайна. Используйте небольшие «sandbox» кластеры Ray для unit‑тестов трансформаций, а затем масштабируйте до продакшн‑кластера после подтверждения корректности.

Примеры типовых задач, ускоряемых Feast + Ray

Агрегация пользовательского поведения. События кликов, просмотров и покупок собираются в Kafka, затем Ray Data читает их пакетами, а задачи Ray вычисляют скользящие окна (7‑дневные, 30‑дневные) и сохраняют агрегаты в Feast. Онлайн‑слой обеспечивает мгновенный доступ к этим метрикам при рекомендациях.
Онлайн‑фичи для fraud detection. При поступлении транзакции система в реальном времени запрашивает последние 5‑минутные статистики (сумма, количество операций) из онлайн‑хранилища Feast, а модель ML использует их для оценки риска.
Обогащение данных внешними источниками. Гео‑данные, курсы валют и макроэкономические индикаторы периодически загружаются в S3, обрабатываются Ray‑задачами и становятся частью глобального feature store, доступного всем моделям компании.

Итоги по эффективности

Сочетание Feast и Ray приводит к заметному сокращению времени подготовки признаков: от нескольких часов до нескольких минут при одинаковом объёме данных. Распределённая природа Ray обеспечивает линейную масштабируемость при добавлении узлов, а централизованное управление признаками в Feast гарантирует согласованность между обучением и инференсом. В результате команды данных могут быстрее экспериментировать с новыми фичами, ускорять цикл разработки моделей и поддерживать более надёжные продакшн‑системы без необходимости в сложных кастомных ETL‑решениях.

Масштабирование пайплайнов Feature Engineering с помощью Feast и Ray