![](https://squidex.jugru.team/api/assets/srm/7cea3bfb-b6e8-4ec0-b42c-c0e3722efb1b/sochnikov.jpeg?cache=3600&width=74&height=74&mode=CropUpsize)
Дмитрий Сошников
Компания: МАИ / НИУ ВШЭ / ex-Microsoft
Тип доклада: Доклад
При подготовке данных для машинного обучения часто приходится совершать над данными серию преобразований, чтобы подготовить датасет для обучения.
В докладе пойдет речь про небольшую библиотеку, которую разработали в группе Microsoft Commercial Software Engineering, и которая позволяет описывать обработку данных в виде единого конвейера именованными потоками данных. С помощью такой библиотеки удобно обрабатывать данные, которые слишком велики, чтобы поместиться в Pandas DataFrame, но слишком малы, чтобы использовать Spark/Databricks.
Компания: МАИ / НИУ ВШЭ / ex-Microsoft