PiterPy Online / Bulat Yaminov: "Vaex: Python библиотека для работы с большими данными на обычном ноутбуке" / Online / 3 August 2020 - 6 August 2020

PiterPy Online

3 August 2020 (Mon), 16:00 - 6 August 2020 (Thu), 20:00

Online

Register Closed Reason

Bulat Yaminov: "Vaex: Python библиотека для работы с большими данными на обычном ноутбуке"

Description

Vaex: Python библиотека для работы с большими данными на обычном ноутбуке.

Инженерам и аналитикам все чаще приходится работать с таблицами, состоящими из миллионов или миллиардов строчек. Обычно, если данные слишком большие, чтобы уместиться в оперативной памяти одного компьютера, для анализа приходится использовать распределенные системы. Библиотека Vaex позволяет эффективно работать с таблицами данных на жестком диске с малым использованием оперативной памяти. Таким образом она расширяет возможности быстрого локального анализа и во многих ситуациях может избавить от необходимости платить за вычислительные кластеры.

Vaex написан на Python и C++, использует отображение файлов в память (memory-mapping в форматах Apache Arrow, HDF5), отложенные вычисления, вычислительные графы и эффективные алгоритмы. Это позволяет обрабатывать больше данных, используя меньше ресурсов.

В презентации я расскажу о решениях, используемых в библиотеке Vaex, покажу пример ее использования для анализа данных "New York City YellowCab taxi service", и сравню Vaex с другими библиотеками, позволяющими обрабатывать большие данные на языке Python: такими как PySpark и Dask DataFrame.


Bulat Yaminov
The Netherlands. Utrecht
Software Engineer
vaex.io

Я работаю в Uber Amsterdam, где мы строим сервисы на Go и Python. До этого в XebiaLabs мы разрабатывали продукты для Continuous Delivery. Там я много писал на Java и Scala, был техническим лидером, а позже работал над моделями машинного обучения: они предсказывали результаты запуска continuous delivery pipeline, используя библиотеки на Python, такие как scikit-learn. Свою карьеру я начал 14 лет назад в Питере, закончив КТ в ИТМО. В свободное время я помогаю в разработке Vaex.

Share
Add to calendar
Organizer
СООРГАНИЗАТОР
Hashtag
#PiterPy
Event in socials
Contacts
Irina Saribekova
+7 (921) 903-45-17
irina@it-events.com

Congratulations!

You've successfully subscribed for news.