Начало основного контента

Доклад

mPyPl: функциональный способ организовать обработку данных в Python

  • Язык -RU

При подготовке данных для машинного обучения часто приходится совершать над данными серию преобразований, чтобы подготовить датасет для обучения.

В докладе пойдет речь про небольшую библиотеку, которую разработали в группе Microsoft Commercial Software Engineering, и которая позволяет описывать обработку данных в виде единого конвейера именованными потоками данных. С помощью такой библиотеки удобно обрабатывать данные, которые слишком велики, чтобы поместиться в Pandas DataFrame, но слишком малы, чтобы использовать Spark/Databricks.

Спикеры

Программа