
Алексей Попов
Navio
Объединение модальностей сегодня одна из самых популярных тем множества топовых научных конференций в области ИИ. Мультимодальные алгоритмы используются в системами поиска, в голосовых ассистентах, в генеративных моделях и отлично себя показывают. Также тема объединения модальностей находится на острие технологий в задачах распознавания. Алгоритмы распознавания активно используются в области автономного транспорта, где применяется очень широкий спектр видов входных данных: лидарные, сонарные, радарные, камерные, звуковые. Каждый вид данных для распознавания в области автономного транспорта имеет свои преимущества и недостатки. Например, у данных с камер свои преимущества - камеры далеко видят, хорошо отличают контекст и обычно дешево стоят. Лидары отлично измеряют пространство, но например не отличают цвета в общем случае, плохо работают во время осадков. Радары отлично видят в любую погоду, но подвержены шумам в данных, могут видеть невидимые объекты, которые не интересны для распознавания. В докладе мы поговорим о том, какие существуют способы объединения данных от таких источников, а именно про late и early фьюжены. Например, поздний фьюжен работает с результатами отдельных алгоритмов распознавания и объединяет уже их результаты, а ранний позволяет объединять информацию на ранних этапах признаковых представлений нейронных сетей. Мы обсудим преимущества и недостатки каждого из подходов, углубимся в то, почему сейчас все пытаются работать с ранним фьюженом данных. А также поговорим о нашем опыте работы с мультимодальными архитектурами распознавания и тем что нужно для того, чтобы у вас это заработало.
Navio