Дмитрий Сошников
Компания: МАИ / НИУ ВШЭ / ex-Microsoft
При подготовке данных для машинного обучения часто приходится совершать над данными серию преобразований, чтобы подготовить датасет для обучения.
В докладе пойдет речь про небольшую библиотеку, которую разработали в группе Microsoft Commercial Software Engineering, и которая позволяет описывать обработку данных в виде единого конвейера именованными потоками данных. С помощью такой библиотеки удобно обрабатывать данные, которые слишком велики, чтобы поместиться в Pandas DataFrame, но слишком малы, чтобы использовать Spark/Databricks.
Компания: МАИ / НИУ ВШЭ / ex-Microsoft