Новости по тегу "data engineering"
Подборка публикаций, содержащих тег "data engineering". Актуальные темы и важные события.
Зачем банку ещё одна ALM-система
Хабр, привет! В этой статье расскажем, как команда банка ВТБ построила собственную аналитическую систему на базе открытых технологий и с...
Apache Airflow на практике: погружение в инструмент для оркестрации ETL-процессов
Apache Airflow давно стал стандартом в мире Data Engineering благодаря своей гибкости, масштабируемости и богатой экосистеме. В этой статье мы...
Как мы решили проблему батчевых загрузок в реляционные СУБД, или Немного хорошего о «худших практиках» в Spark
Всем привет! Меня зовут Алексей Николаев, я работаю дата-инженером в команде ETL-платформы MWS Data (ex DataOps). Часто сталкиваюсь с тем, что в...
Проблемы БД или почему большой продакшн спасут только массовые расстрелы запросов
За счёт правильных, даже необязательно новых, а просто верно выбранных архитектурных подходов можно заставить работать не один конкретный запрос,...
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для...
ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц
Недавно перед нашей командой встала непростая задача: объем данных для аналитики вырос до 300 миллионов строк в день. Прежние решения перестали...
[Перевод] Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1
Выбор архитектуры данных — это не просто техническое решение, а стратегический шаг, от которого зависит эффективность работы с данными во всей...
Топ-статей Saint HighLoad++ 2025
В этом году Saint HighLoad++ снова собирает экспертов индустрии на берегу Невы. А я уже знаю, какие темы вызовут настоящий хайп среди инженеров и...
Apache Kafka на слое Stage аналитической платформы: зачем, как и грабли на пути
Всем привет! В этой статье поделюсь нашим опытом использования Apache Kafka на слое Stage в аналитической архитектуре. Мы поговорим о том, что...
Приходят как-то аналитики на офисную кухню, а там дата-инженеры в нарды играют…
Один из игроков — я, Кирилл Красновид, тимлид BI-команды в Профи.ру. Наша задача — делать так, чтобы каждый быстро и удобно получал нужную...
Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов
В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования...
Концепция построения централизованной аналитики
Централизованная аналитика — это фундамент эффективного принятия решений в компании. Чтобы данные действительно работали на бизнес, они должны...