Доклад

onETL: как и зачем мы прикручиваем батарейки к Apache Spark

На русском языке

При разработке ETL/ELT pipeline в МТС Диджитал дата-инженеры сталкивались со сложностями и повышенной когнитивной нагрузкой при использовании Apache Spark. Вместо оперирования примитивами нужно постоянно помнить про синтаксис каждого spark.read.jdbc, spark.read.format("kafka") и их параметров, копировать примеры у соседних команд. Мы упростили это до библиотеки с небольшим набором классов-оберток, которые берут основную сложность на себя, а пользователям остается только компоновать их вместе.

В докладе опишу наш путь к разработке этого инструмента и некоторые подводные камни, с которыми пришлось столкнуться. Инструмент выведен в open source, и им может воспользоваться любой желающий.

Спикеры

Доклады