
Максим Мартынов
МТС Диджитал
При разработке ETL/ELT pipeline в МТС Диджитал дата-инженеры сталкивались со сложностями и повышенной когнитивной нагрузкой при использовании Apache Spark. Вместо оперирования примитивами нужно постоянно помнить про синтаксис каждого spark.read.jdbc
, spark.read.format("kafka")
и их параметров, копировать примеры у соседних команд. Мы упростили это до библиотеки с небольшим набором классов-оберток, которые берут основную сложность на себя, а пользователям остается только компоновать их вместе.
В докладе опишу наш путь к разработке этого инструмента и некоторые подводные камни, с которыми пришлось столкнуться. Инструмент выведен в open source, и им может воспользоваться любой желающий.
МТС Диджитал