onETL: как и зачем мы прикручиваем батарейки к Apache Spark

Сложность -

При разработке ETL/ELT pipeline в МТС Диджитал дата-инженеры сталкивались со сложностями и повышенной когнитивной нагрузкой при использовании Apache Spark. Вместо оперирования примитивами нужно постоянно помнить про синтаксис каждого spark.read.jdbc, spark.read.format("kafka") и их параметров, копировать примеры у соседних команд. Мы упростили это до библиотеки с небольшим набором классов-оберток, которые берут основную сложность на себя, а пользователям остается только компоновать их вместе.

В докладе опишу наш путь к разработке этого инструмента и некоторые подводные камни, с которыми пришлось столкнуться. Инструмент выведен в open source, и им может воспользоваться любой желающий.

Спикеры

Максим Мартынов
МТС Диджитал

Другие доклады по теме «Backend»
Другие доклады по теме «Библиотеки и инструменты»

Расписание

onETL: как и зачем мы прикручиваем батарейки к Apache Spark

Спикеры

Максим Мартынов

Другие доклады по теме «Backend»

Другие доклады по теме «Библиотеки и инструменты»