Новости по тегу "bigdata"
Подборка публикаций, содержащих тег "bigdata". Актуальные темы и важные события.
Облаку Рег.ру два года — задуваем свечи и вспоминаем знаковые релизы
В июне облаку Рег.ру исполняется два года — время оглянуться назад и провести ретро по крупным продуктовым релизам. А их за это время было порядка...
Влияние маленьких файлов на Big Data: HDFS vs S3
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. В этой статье рассмотрим, как большое количество...
Соединение SortMergeJoin в Apache Spark
Рассмотрим, как реализован SortMergeJoin в Apache Spark, и заодно заглянем в исходный код на GitHub. Spark написан на языке Scala, и вся логика...
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
Привет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. Один из наших ключевых инструментов – M42, сервис для...
Построение платформы данных: подход и стек
Привет, меня зовут Ольга, и в этой статья я хочу поделиться с вами опытом по выбору стека для построения решений в области данных. Как CDO я...
RAG‑агент для автоматизации инцидент‑менеджмента
Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со...
SRE в инженерии данных: профессия и ее перспективы
Всем привет! Меня зовут Александр Андреев, я старший SRE инженер данных. Сегодня я хочу рассказать о необычной, но набирающей обороты роли в...
Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
Привет, Хабр! На связи Business Intelligence GlowByte. Три года назад мы в GlowByte провели первую конференцию, на которой рассказали о китайском...
Почему Apache Spark становится ядром аналитических платформ в России: тренды, особенности и прогнозы для бизнеса
Эксперты компании «Криптонит» проанализировали главные тренды использования Apache Spark в бизнесе, выделили особенности его применения в России и...
Максимизация производительности ScyllaDB
ScyllaDB — это высокопроизводительная распределённая NoSQL-база данных, совместимая с Apache Cassandra, но в разы более быстрая за счет того, что...
Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приёмов
В этой статье мы делимся опытом оптимизации Spark-кода на реальных задачах: рассказываем, как с помощью ручного и автоматического репартицирования...
Пакетная репликация данных в аналитическом ландшафте ХД
Наполнение данными хранилища или озера, как правило, является первым большим шагом к доступности аналитической среды для основного функционала и...