Открытая конференция по ии

OpenTalks.AI /
6-7 Марта 2024,
Тбилиси


Друзья, к сожалению мы с очень печальными новостями((
1. Конференция в Тбилиси отменяется. По независящим от нас причинам. Нам очень больно и грустно, но такова ситуация.

2. Извините за краткость, все подробности в понедельник утром, до этого не будем отвечать, нам надо самим все переварить, извините.

3. Мы, конечно, вернем всем участникам и партнерам деньги, которые вы заплатили. Подробности будут в рассылке.

Программа
OpenTalks.AI 2024

версия от 15.02.2024
Время по Тбилиси, GMT+4
19:00-21:00
Welcome drinks and networking
Вечер накануне конференции - прекрасное время выпить бокальчик вина и встретить знакомые лица в неформальной обстановке!) И конечно познакомиться с новыми людьми!)

Там же вы сможете зарегистрироваться на конференцию и получить бейдж, чтобы избежать очереди утром)

Место проведения будет объявлено в рассылке по участникам конференции накануне мероприятия.

День LLM и GenAI

Среда, 6 Марта
08:30 – 10:00
Регистрация и приветственный кофе
09:00 – 09:45
Введение в ИИ для новичков
Игорь Пивоваров, OpenTalks.AI
Пока конференция не началась - для тех, кто только начинает свой путь в ИИ, краткое знакомство с основными технологиями ИИ. Простым языком про компьютерное зрение и большие языковые модели, что такое трансформеры и attention, обзор технологий и применений и как они будут представлены на конференции.
09:45 – 10:00
Перерыв
10:00 – 11:30
Пленарная сессия 1 - обзоры
Большой конференц-зал
10:00 – 10:10
Открытие конференции и первого дня
Игорь Пивоваров, OpenTalks.AI
Что будет на конференции, основные идеи, цифры, акценты.
10.10 – 10.50
Развитие больших языковых моделей: от понимания языка до автономных агентов
Михаил Бурцев
London Institute for Mathematical Sciences (UK)
В этом выступлении мы рассмотрим уровень развития и текущие ограничения больших языковых моделей (LLM), таких как ChatGPT, которые произвели революцию в ИИ за последний год. В первой части будет общий обзор LLM, их возможностей решения широкого спектра проблем понимания естественного языка. Также будут представлены данные, показывающие, что LLM могут отставать от более специализированных традиционных моделей NLP в решении определенных конкретных задач, иллюстрируя компромисс между универсальностью и качеством, специфичным для конкретной задачи. Затем мы углубимся в фундаментальные ограничения размера входного сигнала трансформера и представим наше инновационное решение: разработку преобразователя рекуррентной памяти, который устанавливает новый рекорд по длине последовательности, обрабатываемой нейронной сетью. Во второй части доклада мы обсудим потенциал LLM в создании автономных агентов, способных к независимым действиям и принятию решений. Мы рассмотрим популярные методы подсказки, такие как цепочка мыслей (chain of thought) и дерево мыслей (tree of thought), и рассмотрим текущие проблемы, позволяющие LLM изучать и применять абстрактные правила, особенно в нестандартных областях. Цель этого доклада - дать всестороннее представление о том, где LLM преуспевают, где они терпят неудачу, а также о захватывающих возможностях и вызовах, которые ждут нас впереди в исследованиях и приложениях искусственного интеллекта.
10.50 – 11.30
Превосходя обучающие данные: получаем больше от LLMs на этапе выполнения.
Александр Новиков (online)
DeepMind (UK)
Языковые модели становятся все более повседневным инструментов показывающим впечатляющие возможности по интерполяции обычающих данных. Но могут ли они создавать новые знания, превосходящие то что можно найти в интернете?
Я представлю обзор недавних идей о том, как можно подойти к задаче создания новых знаний при помощи LLM в различных областях: генерации кода (такие работы, как FunSearch (Nature, 2023), AlphaCode и AlphaCodium), математики (AlphaGeometry), действиях (Voyager: агент в Minecraft) и тексте (Tree of thoughts)."
11:30 – 12:00
Перерыв, кофе
12:00 – 12:45
Параллельные сессии
Юридическая сессия
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Рекомендательные системы - под капотом
Зал 4
Генеративный ИИ: мульти-модальность
Будет объявлен позже
Модератор
Александр Тужилин,
NYU
Туториалы
по LLM

Когда поиск разнообразия встречается с неожиданностью: Включение поведения, стремящегося к разнообразию, в дизайн неожиданных рекомендательных систем
Подробнее
Туториал - Как учить большие языковые модели
Мурат Апишев,
Samokat.tech
Подробнее
Хольгер Цшайге,
Infotropic Media
Модератор
Точные алгоритмы для факторизации булевых матриц и их применение в рекомендательных системах
Дмитрий Игнатов
НИУ ВШЭ
Подробнее
Будет объявлен позже
Модератор
Алексей Гончаров, Compress.ai
Эффективный инференс LLM для прикладных задач
Подробнее
Денис Димитров,
МГУ
Большие мультимодальные модели - путь к AGI?
Подробнее
LLM и мульти-модальность Sber AI
Ирина Абдуллаева
AIRI
Mультимодальная модель событий AIRI
Подробнее
Mульти-модальная модель событий AIRI
Тема уточняется
Thomas G. Martin,
Lawdroid, CA
Подробнее
Alan Ragueneau, Denton Nextlaw, SW
Тема уточняется
Подробнее
Анна Романова,
МФТИ
Начала законодательства для автономных систем искусственного интеллекта.
Подробнее
Алексей Васильев, Сбер
Turning Dross Into Gold Loss: is BERT4Rec really better than SASRec?
Подробнее
Большие языковые модели являются основой большинства AI-продуктов, и компании постоянно соревнуются друг с другом, стараясь обучить как можно более сильные модели. Процесс создания LLM является нетривиальным и состоит из широкого набора этапов и подзадач. Несмотря на отсутствие идеальных решений, в ходе множества экспериментов за последние годы исследователи выделили основные идеи и техники, помогающие получить модель более высокого качества с меньшими затратами времени и ресурсов. В рамках туториала будут рассмотрены основные аспекты обучения LLM (данные, архитектура, масштабирование и оптимизация обучения и дообучения, модификация и оценка моделей) и наиболее распространённые практики, связанные с ними. Рассказ рассчитан на слушателей с опытом работы с моделями ML и DL, не специализирующихся на обучении LLM.
Искатели разнообразия - это те клиенты, которым легко надоедают продукты, которые они покупали ранее, и, следовательно, они предпочитают новый контент для расширения своего кругозора. Несмотря на свою распространенность, поведение, связанное с поиском разнообразия, практически не изучается в рекомендательных приложениях из-за различных ограничений в существующих мерах по поиску разнообразия. Чтобы восполнить пробел в исследованиях, в этой статье мы представляем систему поиска разнообразия для измерения уровня поведения потребителей, стремящихся к разнообразию, в рекомендациях, основанных на их отчетах о потреблении. Мы подтверждаем эффективность нашей системы с помощью опросов пользователей, проведенных в Alibaba, где наши показатели стремления к разнообразию хорошо согласуются с самооценками потребителей в отношении их поведения, связанного с поиском разнообразия. Кроме того, мы представляем систему рекомендаций, которая сочетает выявленные уровни поиска разнообразия с неожиданными рекомендательными системами в литературе по интеллектуальному анализу данных, чтобы удовлетворить неоднородное стремление потребителей к разнообразию продукции, в которой мы предоставляем более неожиданные рекомендации по продукту потребителям, ищущим разнообразие, и наоборот. С помощью автономных экспериментов по трем различным сценариям рекомендаций и крупномасштабного контролируемого онлайн-эксперимента на крупной платформе потоковой передачи видео мы демонстрируем, что модели, соответствующие нашей системе рекомендаций, значительно повышают различные показатели эффективности бизнеса и приносят ощутимый экономический эффект для компании. Наши выводы приводят к важным управленческим выводам, позволяющим лучше понять поведение потребителей, стремящихся к разнообразию, и разработать рекомендательные системы. В результате компания внедрила наиболее эффективную модель из предложенных нами фреймворков для обслуживания всех потребителей на платформе потоковой передачи видео.
В этом докладе мы рассмотрим некоторые свойства современных алгоритмов факторизации булевых матриц (таких как GreConD и IterEss), популярных методов интеллектуального анализа данных с бинарными реляционными данными. Этот жадный алгоритм был вдохновлен тем фактом, что оптимальное число множителей для разложения булевой матрицы на множители (BMF) может быть выбрано среди формальных понятий соответствующего формального контекста. В частности, мы рассматриваем один из самых сложных случаев (с точки зрения количества возможных факторов), так называемые контраноминальные шкалы, и показываем, что выходные данные GreConD в этом случае не являются оптимальными. Более того, мы формально анализируем его выходные данные с помощью рекуррентных и генерирующих функций и получаем замкнутую форму для возвращаемого количества факторов. Алгоритм, генерирующий оптимальное количество факторов и соответствующие матрицы произведений P и Q, также предоставляется нами для случая контраноминальных шкал. В дополнение к алгоритмическим исследованиям мы предоставляем слушателям краткое изложение наших предыдущих результатов по приложениям BMF для совместной фильтрации (в сотрудничестве с Е. Неновой, М. Ахматнуровым и др.), а также некоторые недавние результаты для булевых тензоров. (Это совместная работа с Александрой Яковлевой и Язагом Мезиане)
Как сделать инференс LLM быстрым, эффективным по цене и кастомизируемым при работе на серверах компании при отсутствии дорогих GPU? В докладе поделюсь опытом разработки и расскажу о методах масштабирования инфраструктуры под LLM и подходах к росту эффективности песочницу для экспериментов.
Сейчас в научной и бытовой сфере большой популярностью пользуются большие языковые модели (large language models). Про них мы читаем новости, видим впечатляющие видеопрезентации крупных корпораций и узнаём конспирологические теории о том, что эти самые языковые модели уже познали мир лучше, чем средний человек. Попробуем последовательно разобраться, что сейчас умеют LLM, с чем ещё, кроме текстов, могут работать и как они могут помочь в создании сверхсильной интеллектуальной машины. В рамках доклада поделюсь своим опытом исследований в этой сфере, расскажу об экспериментах, бенчмарках и других больших проблемах человечества в открытых вопросах, а также о нашей мультимодальной архитектуре OmniFusion. Обсудим также мультиагентный подход, способы «общения» LLM, механизмы Chain-of-Thought и Tree-of-Thought, общую память, self-reflection и другие аспекты, на которые уже стоит обратить внимание. Также немного расскажу и о наших исследованиях в области генеративного ИИ (а именно Kandinsky 3.0, Kandinsky Video) - и самое главное о том, как связать между собой OmniFusion и, например, Kandinsky в единую систему, которая может решать практически весь спектр задач на стыке разных модальностей
В области последовательностей событий, в отличие от компьютерного зрения (CV) или обработки естественного языка (NLP), не принято использовать предварительно обученную модель для решения сразу нескольких задач и обобщения на новые. Существующие подходы имеют ограничения с точки зрения гибкости, обобщения и вычислительной эффективности. Кроме того, интеграция длинных последовательностей событий в подходы, основанные на нейронных сетях, остается сложной задачей.
Для решения этих проблем в данной статье предлагается новый подход под названием Event Sequences Question Answering (ESQA), основанный на модели большого языка (LLM). Мы представляем все задачи, основанные на последовательности событий, в форме вопрос-ответ. Более того, мы предлагаем универсальный метод кодирования последовательностей событий с использованием обучаемого кодера, основанного на архитектуре Transformer. Эффективное извлечение признаков из выходных данных кодера и значительное сокращение длины последовательности достигаются за счет использования модели Q-Former в качестве соединительного уровня между кодером и LLM. Результаты наших эмпирических исследований показывают, что применение предварительно обученных моделей большого языка к модальности последовательности событий в ESQA обеспечивает качество, сравнимое с современными подходами для различных задач прогнозирования в многозадачных условиях в различных наборах финансовых данных с открытым исходным кодом. Кроме того, ESQA продемонстрировала адаптивность к новым задачам с качеством, превышающим статистические показатели.
How to make LLM inference fast, cost-effective and customizable when running on company servers in the absence of expensive GPUs? In the talk I will share my development experience and talk about methods of scaling infrastructure under LLM and approaches to efficiency growth sandbox for experimentation.
The significant part of the operational context for autonomous company management systems is the regulatory and legal environment in which corporations operate. In order to create a dedicated operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide basis for the joint work of individuals and autonomous artificial intelligence systems can form the grounds for the relevant legislation governing the development and implementation of autonomous systems.
undefined
В последнее время задача последовательных рекомендаций и прогнозирования следующего элемента становится все более популярной в области рекомендательных систем. В настоящее время наиболее современными являются модели на основе трансформеров SASRec и BERT4Rec. За последние несколько лет появилось довольно много публикаций, в которых сравнивались эти два алгоритма и предлагались новые модели. В большинстве публикаций BERT4Rec обеспечивает лучшую производительность, чем SASRec. Но BERT4Rec использует перекрестную энтропию поверх softmax для всех элементов, в то время как SASRec использует отрицательную выборку и вычисляет двоичную потерю перекрестной энтропии для одного положительного и одного отрицательного элемента. В нашей работе мы показываем, что если обе модели обучаются с одинаковыми потерями, которые использует BERT4Rec, то SASRec значительно превзойдет BERT4Rec как по качеству, так и по скорости обучения. Кроме того, мы показываем, что SASRec может быть эффективно обучен с отрицательной выборкой и по-прежнему превосходить BERT4Rec, но количество отрицательных примеров должно быть намного больше одного.
Александр Резанов,
Rask AI
Модератор
Илья Ненахов,
Яндекс Маркет
Внутреннее устройство нейробаннеров на Яндекс Маркете
Подробнее
В докладе я расскажу про решение реальной AdTech задачи по генерации рекламных баннеров на Яндекс Маркете при помощи современных нейросетевых архитектур. Мы немного поговорим откуда такая задача берется в рекламных системах, и в чем ее специфика в екоме. Фокус будет на технических деталях решения - YaGPT и ее дообучение под свои задачи, ptune, архитектура SAM и ее ускорение. Также я расскажу про устройство рантайма и всего продового процесса, с какими проблемами мы столкнулись, и что получили в итоге.
12:45 – 13:00
Перерыв
13:00 – 14:00
Параллельные сессии
Решения для бизнеса на базе LLM
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнесс
Туториал по CUDA
Математика и ИИ
Зал 4
Implementing AI into office software
Анна Плешакова, OnlyOffice
Роман Доронин, Bioptic.io
Модератор
Подробнее
RAG и его производные. Продуктовые кейсы, в которых LLM приносит реальную пользу бизнесу
Инна Лизунова,
Группа компаний ЦРТ
Подробнее
Как написать свой CUDA kernel: практический подход к низкоуровневой оптимизации
Григорий Алексеев, Perplexity
Подробнее
Сергей Кузнецов, НИУ ВШЭ
Математика и искусственный интеллект.
Иван Оселедец,
AIRI
Подробнее
Созданий приложений с LLM: больше, чем просто написать промпт
Подробнее
Сергей Веренцов, EORA
GigaSearch или Поисковая система на GigaChat
Подробнее
Прохор Гладких, SberDevices
При поддержке
Постерная сессия
Александр Гасников, Иннополис, МФТИ
AI вино, AI шоколад и другие новые методы оптимизации
Подробнее
В этом выступлении я выделю несколько фундаментальных проблем в ИИ, которым не хватает математического формализма, например, согласование больших языковых моделей. С другой стороны, многие математические концепции могут быть эффективно использованы для улучшения качества алгоритмов ML. Например, гиперболическая геометрия является ярким примером. Замена обычных вложений гиперболическими приводит к SOTA в обучении метрике.
Расскажу, как мы боремся с галлюцинациями и устареванием данных в GigaChat с помощью подхода RAG (Retrieval-Augmented Generation)
На первый взгляд может показаться, что создатели приложений, использующих LLM, просто пишут промпты и интегрируют их с публичным API. Однако при автоматизации сценариев с использованием LLM разработчикам необходимо уделять особое внимание правильности ответов и обеспечению безопасности при взаимодействии с моделью. В то же время развиваются методы проектирования цепочек вызовов LLM, что позволяет промпт-инженерам разрабатывать не просто промпты, а целые сценарии получения данных и вызовов модели при помощи таких техник, как ReAct, RAG, FLARE и других. В этом докладе будут освещены основные трудности, возникающие при создании приложений на основе LLM, список необходимых компетенций, а так же особенности планирования, разработки и поддержки подобных приложений.
На волне популярности LLM мы в ЦРТ пропустили через себя большое количество продуктовых пилотов. Большая часть из них тем или иным образом связана с генеративным поиском (RAG, Retrieval Augmented Generation) по очень разным источникам информации. В докладе мы поделимся собственным опытом решения продуктовых кейсов с использованием LLM:
- Во что в продуктовых кейсах может трансформироваться "ванильный" RAG? Как его узнать?
- В какие RAG-подобные кейсы идти стоит, а в какие - нет, и при каких условиях?
- Где бизнес-ценность в подобных кейсах?
Innovations in artificial intelligence have led to it becoming an integral part of society and finding applications in a variety of fields. In this session, we will cover AI implementation into office software; highlight what benefits AI can bring to users when working with documents; take into consideration various markets in terms of using the leading AI providers.
Agenda:
1. How to fuse a QKV Attention Layer into a single CUDA kernel?
2. Step-by-step guide to writing efficient kernels using a basic algorithm

Quick Overview:
1. We will explore kernel-level operations to understand how LLM layers function, specifically focusing on the QKV attention layer from llama_7b. I will present my approach for implementing a fused CUDA kernel, including code snippets. This session will also cover benchmark analysis and potential optimization strategies.
2. This segment involves a deeper examination of CUDA kernels, focusing on optimization techniques and profiling. We'll research the process of enhancing a basic histogram kernel, analyzing its behavior from various aspects and comparing it to a third-party solution.
В докладе пойдет речь о том, как решать задачи оптимизации, если невозможно получить градиент целевой функции и невозможно даже получить значение целевой функции. А можно только сравнивать между собой значения целевой функции в разных точках. То есть запросив значения целевой функции в наборе точек, можно, например, сказать, в какой точке значение было наименьшее (или наибольшее), но нельзя сказать, чему именно оно равно. Такие постановки задач возникают при разработке с помощью искусственного интеллекта различных продуктов питания (например, шоколада). В докладе будет обсуждаться вопрос, какие алгоритмы являются оптимальными для класса задач гладкой оптимизации (выпуклой, невыпуклой) большой размерности и малой размерности. Удивительно, но оказывается, оценки оракульной сложности оптимальных алгоритмов для задач оптимизации с таким оракулом получаются с точностью до логарифмического множителя такими же как для обычных безградиентных методов, в которых возможно вычисление значения функции.
Модератор
14:00 – 15:00
Обед
15:00 – 16:30
Пленарная сессия 2 - обзоры
Большой конференц-зал
15:00 – 15:45
Главное в Генеративном ИИ в 2023
Александр Нотченко, ODS London
Прошлый год был монументальным для генеративного ИИ, и скорее всего все знакомы с LLM (большими языковыми моделями) и их ролью в этой революции. Но в этом докладе я сделаю обзор других важных достижений в генеративных моделях за прошлый год, а именно в области генерации 2D изображений, Видео, Аудио, 3D моделей, анимации и прочего. Также я проанализирую основные причины которые на мой взгляд привели к появлению этих моделей.
15:45 – 16:05
ИИ в ритейле - обзор
Михаил Неверов, X5 Tech
В нашем выступлении мы покажем, как Data Science и AI трансформируют продуктовый ритейл, от выбора места для магазина до персонализации сервиса и оптимизации работы сотрудников. Рассмотрим примеры использования аналитики для прогнозирования трендов, управления запасами и разработки программ лояльности, которые увеличивают продажи и улучшают клиентский опыт.
Присоединяйтесь, чтобы узнать, как data-driven решения делают ритейл более адаптивным и клиентоориентированным.
16:05 – 16:30
Взгляд СТО на генеративный ИИ
Марина Дорохова,Яков и Партнеры
Доклад посвящен перспективам генеративного ИИ для бизнеса. Результаты получены в ходе нашего собственного опроса технических директоров 100 крупнейших компаний в России из 15 отраслей и посвящены их ожиданиям от внедрения генеративного ИИ, наиболее популярным сценариям использования, предполагаемому бюджету на генеративный ИИ, а также общим рискам и проблемам, встречающимся в этой области. Таким образом, в докладе обобщены основные уроки, которые бизнес, разработчики и исследователи могут принять во внимание при создании моделей генеративного ИИ и продуктов для конкретных отраслей.
16:30 – 17:00
Перерыв
17:00 – 18:00
Параллельные сессии
Рекомендательные
системы в бизнесе
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Генеративный ИИ: изображения и видео
Обучение с подкреплением
Зал 4
Туториалы
Тиндер в Прямых продажах
Елизавета Пушкарева,
Точка
Сергей Лукашкин, ВТБ
Модератор
Юрий Визильтер, ГОСНИИАС
Модератор
Подробнее
Аркадий Сандлер, True Click Technologies
Руслан Салахутдинов,
Carnegie Mellon
Последние достижения в RL (название уточняется)
Игорь Пивоваров,
OpenTalks.AI
Модератор
Подробнее
Рекомендательные системы в медиа платформах
Подробнее
Федор Смирнов,
Glowbyte Consulting
Вероятностное программирование
Подробнее
Руслан Ермагамбетов,
Контур
Пульс-индекс: динамическая модель оценки вероятности банкротства компании
Подробнее
Евгений Бурнаев,
Сколтех
От стохастических дифференц-иальных уравнений до задачи Монжа-Канторовича и обратно: путь к искусственному интеллекту?
Подробнее
Вероятностное програм-мирование
Методы оптимизации нейросетевых алгоритмов
Дмитрий Иванов,
МГУ, Цифрум
Подробнее
Владислав Корзун, МФТИ
Autoregressive models for Conversational Gestures Generation. The Path through GENEA challenges
Подробнее
Нейросеть для оптимизации количества и стоимости конверсий в рекламных кампаниях
Подробнее
Алексей Бирюков,
Андата
Будет объявлен позже
Модератор
Каждый день продавцы в Точке прозванивают 3000+ карточек, но что если мы можем влиять на этот процесс и подбирать карточки на прозвон для каждого продавца? Расскажу, как мы сделали машинку, которая ранжирует компании по вероятность конвертации в клиента, а потом переделали ее в своеобразный тиндер: карточки с контактами каждый день разделяются между продавцами на основе персональных скоров, предсказанной производительности и срочности прозвона. Затрону техническую сторону машинки для предсказания персональных скоров + стратегию бронирования карточек и как подобрать оптимальное временное окно бронирования. А ещё - покажу, сколько денег мы на этом заработали
undefined
В сфере услуг Over-The-Top (OTT) и Video On Demand (VOD) на операционную эффективность существенно влияют две основные проблемы: отток пользователей и использование контента. Высокий уровень оттока подрывает усилия, вложенные в привлечение пользователей, а неоптимальное использование контента может снизить интерес зрителей, что еще больше усугубляет проблему оттока. Эти платформы часто выделяют большую часть своих бюджетов на привлечение новых пользователей и защиту прав на контент. Поэтому решение важнейших вопросов о том, как поддерживать вовлеченность зрителей и какой контент приобретать - или как лучше использовать существующий контент - становится необходимым условием успеха в индустрии OTT/VOD.
В исследовании PWC подчеркивается, что удержание зрителей положительно коррелирует с широтой потребляемого контента, что указывает на то, что разнообразная и увлекательная библиотека контента является ключом к снижению уровня оттока. Учитывая это, лидеры рынка вкладывают значительные средства в сложные алгоритмы рекомендаций, стремясь выделиться на высококонкурентном рынке.
На предстоящей конференции будут представлены стратегии для компаний, у которых нет ресурсов для прямой конкуренции с гигантами отрасли. Она будет посвящена тому, как эти организации могут использовать передовые технологии в рекомендательных системах для повышения вовлеченности зрителей и принятия обоснованных решений по приобретению контента, тем самым находя свой собственный путь к успеху на переполненном рынке OTT/VOD.
Тема – вероятностное программирование и генеративные вероятностные модели. Вероятностное программирование позволяет включать в модели машинного обучения экспертные знания и допущения, в первую очередь о взаимосвязях различных факторов, и учитывать ненаблюдаемые факторы, которые управляют процессом генерации данных. В качестве практического примера будем рассматривать задачу определения скрытых потребностей, определяющих структуру чеков у покупателей.
В своем докладе расскажу про то, как мы в Контур.Фокусе разрабатывали и внедряли в продукт динамическую модель оценки вероятности банкротства. Данная модель призвана помочь пользователям Контур.Фокуса в оценке надежности контрагентов, так как обладает предиктивной способностью оценивать риск банкротства компании на основании данных бухгалтерской отчетности, арбитражных исков и других событий. Подробно разберем детали обучения и деплоя модели, с какими трудностями столкнулись при интеграции и как собирали обратную связь по новой фиче.

А.Н. Колмогоров - крупнейший математик XX века, основоположник современной теории вероятностей, также заложивший основы теории марковских случайных процессов с непрерывным временем. Эти результаты, оказавшие огромное влияние на развитие прикладных методов обработки сигналов, фильтрации, моделирования и обработки финансовых данных, в 21 веке снова оказались в центре внимания в связи с развитием искусственного интеллекта и его приложений. Действительно, для решения таких важных прикладных задач, как повышение разрешения изображений, синтезирование речи по тексту, генерация изображений на основе текстовых описаний, и др. требуются эффективные методы генеративного моделирования, которые способны порождать объекты из распределения, задаваемого выборкой примеров. Недавние достижения в области генеративного моделирования как раз и базируются на диффузионных моделях и используют математическую основу, заложенную еще в прошлом веке А.Н. Колмогоровым и его последователями. В докладе будет рассказано о современных подходах к генеративному моделированию на основе диффузионных процессов и на основе решения задачи Монжа-Канторовича. Будет показана связь решения энтропийно-регуляризованной задачи Монжа-Канторовича с задачей построения диффузионного процесса с определенными экстремальными свойствами. Работа соответствующих алгоритмов будем продемонстрирована на примере решения различных задач обработки изображений.
Современные нейронные сети представляют собой чрезвычайно ресурсоемкие алгоритмы с точки зрения памяти, вычислений и энергии. Это приводит к дополнительным затратам на их использование, а также ограничивает их использование на edge-устройствах. В туториале обсуждаются проблемы inference нейронных сетей с аппаратной и программной точки зрения. В первой мы кратко обсудим проблему «узких мест» фон Неймана и способы ее обхода. Во второй мы обсуждаем основные подходы к оптимизации нейронных сетей, такие как: pruning, кантизация, дистилляция, их варианты и их комбинации. Заодно сравним современные системы ИИ с мозгом и объясним причины большей эффективности мозга. Мы покажем, что наиболее эффективные подходы к оптимизации систем ИИ используют (в некотором смысле) принципы, основанные на мозге.
Развитие больших языковых моделей, а также систем синтеза речи привело к появлению "живых" агентов в виртуальных мирах. Этим агентам также требуется реалистичная жестикуляция во время взаимодействия с человеком. В своем докладе я расскажу о том, как такие жесты можно генерировать из речи и не только. Я представляю наши подходы к генерации разговорных жестов, возникшим в ходе участия в GENEA Challenges, что в итоге привело к трем статьям. Я расскажу о самой задаче, о первых подходах к её решению, а также о подходах, предложенных нами, с какой главной проблемой авторегрессионных моделей мы столкнулись, как мы пытались её решить и как нам помогли видеоигры.
Эксплуатация нейросети по масштабированию и последующей оптимизации брендовых рекламных кампаний, с условием повышения доли целевых заявок и без каннибализации органического трафика
18:00 – 18:15
Перерыв
18:15 – 19:00
Параллельные сессии
Предиктивная аналитика в бизнесе
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Что может пойти не так?
LLM - мультиагентные модели
Зал 4
Предсказание успешности стартапа и прогнозирование портфеля венчурного фонда
Кирилл Штабцовский,
Aloniq
Подробнее
Марк Потанин,
Xihelm
Георгий Кекелидзе, IITech
Модератор
Александр Крайнов,
Яндекс
Модератор
Евгений Бурнаев,
Сколтех
Анастасия Семенова, Smile2Impress
Модератор
Виктор Носко
ФракталТех
FractalMath - Мультиагентный подход в решении математических задач arithmetic reasoning
Подробнее
Сергей Шумский,
Adam & Eva, Inc.
Нейро-символьный диалоговый интеллект за недорого
Подробнее
Машинное обучение в металлургии
Подробнее
Дмитрий Муравьев,
ММК - Информсервис
Дмитрий Ветров,
Constructor University
Иван Оселедец,
AIRI
Михаил Бурцев,
London Institute for Mathematical Sciences
Татьяна Шаврина,
Snapchat
Алексей
Шпильман,
Газпром Нефть
Илья Макаров,
МИСИС
LLM4Anything: мультиагентные LLM системы
Подробнее
Трансформаторы и синтетические данные для обнаружения дефектов на конвейерных лентах
Подробнее
Олег Карташев,
Severstal Digital
Представлена новая нейро-символьная архитектура больших языковых моделей. Она сочетает в себе обучение без учителя и обучение с подкреплением и требует на несколько порядков меньше вычислений для обучения по сравнению с нейросетевыми языковыми моделями. Сложность обучения в предлагаемой архитектуре растет линейно с размером данных, в отличие от квадратичной зависимости в нейросетевых моделях языка.
Мы предлагаем новый, мультиагентный подход к решению задач математического ризонинга. LLM показали значительный прогресс в решении мат. задач, однако они имеют фундаментальные ограничения и не позволяют добиваться высокого качества решения стабильно. В предлагаемом подходе агенты самоорганизуются для создания стратегии решения задачи на лету, что позволяет добиваться надежного решения целого класса математических задач арифметического ризонинга.
We explore predicting startup success using CrunchBase data and deep learning. Our model forecasts milestones like IPOs, unicorn status, and M&A for Series B and C startups. We achieved 14x capital growth (98th percentile of VC funds), identified high-potential startups, and stress the importance of diverse data for accuracy. This work shows deep learning's promise in startup success prediction.
1. Who are the mathematicians in the MMK? 2. What kind of problems they are solving by using different methods and instruments? 3. What is the economic effect of the application of the mathematical modelling? 4. Why mathematical modelling is related to the machine learning? 5. What kind of the case studies we have already carried out?
We will talk about the ability of Large Language Models (LLMs) to provide personalized business-oriented communication with the help of agents. We also tackle the problem of finetuning and adding new modalities for practical applications. Finally, we formulate core challenges and approaches for building applications over LLMs.
Мы покажем вам, как мы используем и улучшаем трансформеры и какие алгоритмы мы применяем для создания синтетических данных, чтобы предсказать редкие дефекты на конвейерных лентах.

День CV, RL и AGI

Четверг, 7 Марта
09:00 – 10:00
Регистрация
10:00 – 11:30
Пленарная сессия 3 - обзоры
Большой конференц-зал
10:00 – 10:10
Открытие дня
Игорь Пивоваров, OpenTalks.AI
10:10 – 10:50
Computer Vision - главное в 2023 году
Артем Санакоев
Meta AI
В этом выступлении я расскажу о самых интересных статьях года и достижениях в области компьютерного зрения. От новых масштабируемых архитектур, которые расширили возможности распознавания, до успехов, достигнутых в предварительном автоматическом обучении, которые открывают новые уровни понимания без обширных наборов размеченных данных. Мы исследуем объединение зрения и языка в мультимодальных системах, демонстрируя, как эти комбинированные входные данные улучшают машинное восприятие. В докладе также будут рассмотрены последние достижения в области fine-grained задач, включая сегментацию, обнаружение и отслеживание, демонстрируя точность и детализацию, которые теперь достижимы. Кроме того, я раскажу про роль генеративных моделей в обучении визуальному представлению и их применение в таких задачах, как сегментация и оценка глубины.
10:50 – 11:30
Обзор Reinforcement Learning за 2023 год
Алексей Шпильман
Газпром Нефть
Обучение с подкреплением, как прошел 2023 год?
Обсудим самые важные, самые интересные и пару весёлых статей.
11:30 – 12:00
Перерыв
12:00 – 13:00
Параллельные сессии
Компьютерное зрение в медицине
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнесс
Оптимизация вычислений
LLM - языковые модели
Зал 4
Обучение с подкреплением - научные доклады
ИИ уменьшает время и увеличивает эффективность при обследовании КТ
Анвар Курмуков,
AUMI.AI
Аркадий Сандлер,
True Click Technologies
Модератор
Станислав Моисеев, Тинькофф
Модератор
Ускорение работы LLM за счет тонкой настройки
Александр Демидовский,
Huawei Russian Research Institute
Подробнее
Быстрый вариант алгоритма Node2Vec
Полина Пластова,
YADRO
Подробнее
Фундаментальные модели в обработке медицинских изображений.
Евгений Сидоров,
Платформа Третье Мнение
Подробнее
Анастасия Семенова, Smile2Impress
Модератор
Федеративное обучение в 2023 году: Обновления, тренды и
направления развития
Денис Афанасьев,
CrossOverMarkets
Подробнее
Взаимодействие человека и ИИ в медицине
Илья Першин,
Иннополис
Подробнее
Автоматическая система для анализа OCT изображений сетчатки глаза
Кирилл Аксенов,
PREDICT SPACE
Подробнее
Юрий Чернышев,
Сайберлимфа
Мультиагентный Reinforcement Learning - обзор
Подробнее
Антон Плаксин,
Yandex Research
Обучение с подкреплением в дифференциальных играх с нулевой суммой.
Подробнее
Андрей Фильченков, ИТМО
Модератор
Подробнее
Управление перегрузками при передаче файлов на основе глубокого обучения с подкреплением
Александр Блохин, Huawei
Подробнее
Виталий Калев,
Huawei
Павел Браславский,
Nazarbayev University
You Told Me That Joke Twice: A Systematic Investigation of Transferability and Robustness of Humor Detection Models
Подробнее
Лингвистические и логические структуры для анализа текста
Дмитрий Ильвовский,
НИУ ВШЭ
Подробнее
Сергей Кузнецов,
НИУ ВШЭ
Мария Тихонова,
SberDevices, ВШЭ
mGPT: LLM, говорящая на 61 языке, включая грузинский и русский
Подробнее
Алексей Трутнев,
Huawei Russian Research Institute
Данный доклад представляет обзор области Federated Learning, освещая ее развитие и тренды на 2023 год. Федеративное обучение, быстро развивающееся направление в машинном обучении, включает в себя обучение алгоритмов на децентрализованных устройствах или серверах при локализации данных. Презентация начнется с краткого введения в федеративное обучение, объясняющего его основные принципы и значение.
Затем в докладе будут представлены ключевые кейсы и области применения, которые демонстрируют практическую пользу и универсальность
федеративного обучения в различных секторах экономики. Значительная
часть презентации будет посвящена обсуждению достижений в этой области
за 2023 год. Этот анализ основан на тщательном изучении общего
информационного пространства по этой теме, включая анализ тематических
конференций, академических публикаций, обновлений открытых инструментов и репозиториев GitHub.

Кроме того, в презентации будет представлен обзор новостей компаний,
разрабатывающих решения в этой области, с целью предоставить представление о бизнес- и технологических последствиях этих разработок. Будет предложена критическая оценка уровня зрелости технологии федеративного обучения, оценивая ее готовность к широкому внедрению. В этом аспекте будут затронуты проблемы, с которыми сталкивается данная
технология, потенциальные риски и перспективы федеративного обучения,
предоставляя всесторонний взгляд на ее текущее состояние и будущее развитие.

В этом докладе мы расскажем о проблемах управления перегрузками при передаче файлов, предложим реализацию алгоритма управления перегрузками на основе методов обучения с усилением и покажем, как он был применен в реальной жизни.
As industry needs to process growing amounts of training data, reduce the cost of fine-tuning a single model, and minimize the environmental effects, the task of accelerating the fine-tuning of large language models (LLM) has become extremely demanding. DAREL is a novel training data reduction method that operates with training samples based on losses obtained from a currently trained model or a pre-trained one. The proposed method is devoted to Large Language Models fine-tuning and is designed primarily to be combined with Parameter-Efficient fine-tuning methods, such as LoRA. The results of computational experiments provide compelling evidence of the enhancement of the fine-tuning quality and time of Large Language Models. DAREL allows an average 1.26x fine-tuning acceleration for GPT2-S, GPT2-M and GPT2-L on a variety of datasets, including E2E-NLG, DART and WebNLG, with an average BLEU drop of 1.44 p.p.
Node2Vec is a widely used algorithm for learning feature representations of the graph nodes. This algorithm is intensivelly used in multiple highload applications. Thus its performance is very important. There are two reference implementations of the Node2Vec in C++ and Python from Stanford Network Analysis Project (SNAP). However, their performance is not optimal. We introduce an optimized implementation of the Node2Vec algorithm, which performance is 2.5-5.1 times higher than the reference ones. We also prove that the accuracy of the optimized algorithm stays the same by solving a multi-label node classification problem on several datasets.
Обсудим, почему мы решили объединить мультимодальные сети, неразмеченные данные и новый взгляд на формат DICOM в единой фундаментальной модели. Что это нам дало и почему за этим будущее.
В основной части выступления будет рассмотрена проблема эффективного планировании лучевой терапии. Для планирования необходимо сегментировать большое количество анатомических структур. Задача сегментации осложняется тем, что 1) используются объемные медицинские изображения и 2) органы пациентов абнормальны. По этим причинам результаты автоматической сегментации требуют ручных исправлений. Будет представлен подход для оптимизации процесса исправления сегментации в режиме реального времени на основе информации о взгляде врача. В дополнительной части выступления будет рассмотрена проблема интерпретируемости глубоких моделей.
Neovascular age-related macular degeneration (n-AMD) is a form of AMD that is responsible for most cases of severe vision loss. Anti-VEGF therapy, which is the gold standard for the treatment of this pathology, is accompanied by OCT monitoring. However, this process is hampered by the lack of methods for accurately quantifying OCT images. The aim of this study is to develop and evaluate the accuracy of the automated calculation of the quantitative characteristics of PED, SRF and IRF biomarkers. The study material included OCT B-scans of patients with n-AMD and pigment epithelial detachment who underwent anti-VEGF therapy from 2014 to 2021. OCT B-scans obtained from a CirrusHD-OCT 5000 Carl Zeiss Meditech device. The neural network for OCT image segmentation was trained on a dataset including 251 and 385 images from Experiments 1 and 2, respectively. The images were annotated by experts highlighting PED, SRF and IRF biomarkers using Labelme software. Data preprocessing included image resizing, normalization, and conversion to grayscale format. The data set was divided into training and validation. To segment retinal structures, the UNET architecture with the Adam optimizer and the Categorical Cross-Entropy loss function was used. The algorithm for calculating quantitative biomarker characteristics was based on edge detection using the method of Satoshi Suzuki and KeiichiA be. Testing data set for access the efficiency of system that included algorithms for segmentation and calculation of quantitative characteristics of biomarkers, included 241 images for which the length and height of the PED were measured by a physician using built-in software. Also, the image data were marked with respect to 3 anatomical treatment outcomes: attached PED; non-attached PED; PED tear. The developed method for processing OCT images made it possible to segment the biomarkers PED, SRF and IRF with high accuracy. The segmentation model shows the best results for PED (0.9), but also shows good accuracy for SRF and IRF (0.72 and 0.69) with increasing number of training data in experiment 2. Automated algorithm for calculating quantitative characteristics of biomarkers on the test set data from patients with n-AMD showed no statistically significant difference when comparing measurements with a physician. The study also showed that the attached and non-attached PED groups were statistically significantly different regarding the height, extent and area of the PED. In addition, IRF area may also be a predictor of PED tear, since its values are statistically significantly different for groups 2 and 3. Thus, automated segmentation and calculation of biomarkers can achieve performance comparable to an ophthalmologist in assessing the quantitative characteristics of biomarkers in cases of neovascular macular degeneration.
Robust Reinforcement Learning (RRL) is a promising Reinforcement Learning (RL) paradigm aimed at training robust to uncertainty or disturbances models, making them more efficient for real-world applications. Following this paradigm, uncertainty or disturbances are interpreted as actions of a second adversarial agent, and thus, the problem is reduced to seeking the agents' policies robust to any opponent's actions. This paper is the first to propose considering the RRL problems within the positional differential game theory, which helps us to obtain theoretically justified intuition to develop a centralized Q-learning approach. Namely, we prove that under Isaacs's condition (sufficiently general for real-world dynamical systems), the same Q-function can be utilized as an approximate solution of both minimax and maximin Bellman equations, and we also indicate conditions when this Q-function can be decomposed. Based on these results, we present the Isaacs Deep Q-Networks (IDQN) and Decomposed Isaacs Deep Q-Networks (DIDQN) algorithms, respectively. We analyze their performance by comparing them with other baseline RRL and Multi-Agent RL algorithms. We consider both simple environments with known accurate solutions and complex large-dimensional MuJoCo environments. In each experiment, we thoroughly evaluate the agents' policies obtained after learning, training opponents against them using various RL algorithms with various parameters. The experiment results demonstrate the superiority of the presented algorithms in all experiments under consideration.
Reinforcement Learning is used for solving of different problems and tasks in different subject areas (traffic control, behavior modelling, SW testing, cybersecurity etc.). There are a lot of real-world tasks when a single agent have to cope with other agents (to coordinate or compete) and multi-agent systems (MAS) is used for such situations. High-dimensional RL-MAS environment causes "curse of dimension" problem and deep learning helps to solve this problem efficiently. This presentation covers some examples of using RL and DeepRL for multi-agent systems.
Radiologists dedicate more than half of their diagnostic time to in- terpreting computed tomography (CT) scans, with chest and abdominal scans being particularly detailed and time-intensive due to the need to meticulously identify and describe a variety of diseases. Our cutting-edge product simultaneously analyzes 10 different diseases in these scans, in- cluding disorders affecting the lungs, heart, bones, and abdominal regions. In this study, we demonstrate how introducing an AI-assisted study pro- vides a substantial time-saving advantage and lessens the heavy workload currently borne by radiologists. Specifically, it saves up to 20% of the time spent on CT examinations (≈ 2.5 mins on average), and increases the average recall by over 29%, while preserving the same level of positive predictive value.
Automatic humor detection is a highly relevant task for conversational AI. To date, there are several English datasets for this task, but little research on how models trained on them generalize and behave in the wild. To fill this gap, we carefully analyze existing datasets, train RoBERTa-based and Naïve Bayes classifiers on each of them, and test on the rest. Training and testing on the same dataset yields good results, but the transferability of the models varies widely. Models trained on datasets with jokes from different sources show better transferability, while the amount of training data has a smaller impact. The behavior of the models on out-of-domain data is unstable, suggesting that some of the models overfit, while others learn non-specific humor characteristics. An adversarial attack shows that models trained on pun datasets are less robust. We also evaluate the sense of humor of the chatGPT and Flan-UL2 models in a zero-shot scenario. The LLMs demonstrate competitive results on humor datasets and a more stable behavior on out-of-domain data. We believe that the obtained results will facilitate the development of new datasets and evaluation methodologies in the field of computational humor. We've made all the data from the study and the trained models publicly available.
Linguistic and logical text structures are very useful for some applied tasks like dialogue generation, argument mining and fact verification. We will consider several cases of such tasks: multi-party dialogue generation by means of discourse structure and also fact correction based on information retrieval combined with logical reasoning.
Over the past years, foundation models and LLMs have demonstrated enhancements in measurable aspects and the development of new qualitative features, creating a need for their comprehensive evaluation and analysis of the associated risks. To address these issues, we present MERA, a new instruction benchmark for evaluating foundation models oriented toward the Russian language. The benchmark encompasses 21 evaluation tasks for generative models. The talk presents the new evaluation methodology, an open-source code base for the MERA assessment, a leaderboard with a submission system, and the evaluated baselines' results.
Регина Гареева,
AUMI.AI
13:00 – 13:15
Перерыв
13:15 – 14:00
Параллельные сессии
Нейроморфные вычисления
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Ген ИИ: LLM для науки и индустрии
Ген ИИ: Диффузионные модели
Зал 4
Данные, разметка и тестирование
Станислав Моисеев,
Тинькофф
Модератор
Обзор методов и инструментов для генерации синтетических датасетов
Роман Куцев, Training Data.Pro
Подробнее
Почему фейлы ML-систем становятся неожиданностью?
Евгений Никитин,
Цельс
Подробнее
Нейроморфный подход к обучению с подкреплением
Михаил Киселев,
Лаборатория Касперского
Подробнее
Импульсные нейронные сети на нейроморфном процессоре:
специфика разработки и перспективы повышения устойчивости к атакам
Олег Выголов,
Лаборатория Касперского
Подробнее
Андрей Лаврентьев,
Лаборатория Касперского
Дмитрий Ветров,
Construct university
Диффузионные модели: разные точки зрения и перспективы
Подробнее
Обзор направления нейроморфных систем ИИ
Денис Ларионов,
Цифрум
Подробнее
Почему фейлы ML-систем становятся неожидан-ностью?
Никита Андриянов, Финансовый Университет
Модератор
Анонимизация персональных данных. ML методы и подходы.
Александр Платонов, Smart Solutions
Подробнее
Михаил Гущин,
ВШЭ
Генеративный ИИ для науки и индустрии
Подробнее
Андрей Устюжанин,
Constructor University, NUS
HypoFinder: Упрощение научных открытий с помощью управляемого искусственным интеллектом инструмента для выбора формализма, генерации гипотез и автоматизированного синтеза исследований
Подробнее
Денис Федосеев, WorldQuant
Модератор
HypoFinder: Упрощение научных открытий с помощью управляемого искусственным интеллектом инструмента для выбора формализма, генерации гипотез и автомати-зированного синтеза исследований
Посчитать метрики на тестовом датасете, протестировать работоспособность API - достаточно ли этого для уверенности в надёжной работе медицинских CV-систем в продакшне? Очевидно, что нет, особенно это касается автономных сценариев работы. Так что в этом докладе я расскажу про самые опасные и частые ошибки процесса тестирования, с которыми мы столкнулись за 5 лет разработки
Появление генеративного AI, улучшение качества 3D рендеринга и моделирования значительно расширяют применение синтетических данных для обучения ML моделей. В обзорном докладе расскажу о том, как обстоят дела на начало 2024 года: - какие методы преобладают на рынке - плюсы/минусы каждого метода - примеры генераций - оценка перспективности методов
Сочетание импульсных нейронных сетей (ИмНС) и нейроморфных процессоров является одним из многообещающих подходов к созданию «встраиваемого» ИИ (Edge AI), обладающего энергоэффективностью, высоким быстродействием и автономной адаптивностью. Специфика разработки таких систем обусловлена, с одной стороны, импульсной и событийной структурой данных в ИмНС, с другой – реализуемым в нейроморфных процессорах принципом «вычисления рядом с памятью». В докладе рассмотрены способы и основные особенности реализации ИмНС на нейроморфном чипе «Алтай» с использованием нейроморфной ML-платформы Kaspersky Neuromorphic Platform. Обсуждается такое свойство аппаратно-ориентированных архитектур ИмНС, как устойчивость к популярным видам атак на ИИ. В качестве proof-of-concept приводится пример разработанного нейроморфного детектора состязательных атак на систему биометрической идентификации по лицу.
Импульсные нейронные сети (ИмНС) и не-фон-Неймановские массивно параллельные вычислители рассматриваются в качестве теоретического и аппаратного базисов для построения так называемых нейроморфных интеллектуальных систем, более близких по принципам функционирования к мозгу человека, чем традиционные искусственные нейронные сети, основанные на принципах глубокого обучения. Похожесть в первую очередь проявляется в подходе к обучению нейросети – вместо биологически нереалистичного метода обратного распространения ошибки обучение строится на локальных законах синаптической пластичности, когда изменение силы синаптической связи зависит только от активности и свойств нейронов, соединенных этой связью. Локальные законы обучения позволяют строить ИмНС на принципах полной асинхронности – в виде огромных ансамблей независимых простых вычислителей. Это обстоятельство и тот факт, что функционирование ИмНС явным образом включает время – в виде временной динамики состояния нейронов и ненулевого времени передачи сигнала от нейрона к нейрону, делает их перспективными для решения задач обучения с подкреплением, так как этот класс задач предполагает непрерывное динамическое обучение с учетом возможной временной задержки оценки правильности действий сети. В докладе рассматриваются структуры ИмНС, применяемые для решения задач обучения с подкреплением, используемые для этого модели нейронов и синаптической пластичности. Анализируется специфика механизмов обучения с подкреплением, основанных и не основанных на моделях внешнего мира (model-free and model-based reinforcement learning). Производится оценка эффективности реализации ИмНС для обучения с подкреплением на современных и перспективных нейропроцессорах.
Diffusion models became state-of-the-art tool for generative modelling. However they remain underexplored and the reasons for their success are not fully understood yet. In the talk we will consider them from different perspectives and discuss how basic model can be extended based on those perspectives. In particular we will try to understand what elements of diffusion model are crucially important and what can be omitted without loss in quality.
В докладе будет представлен обзор современных трендов в направлении нейроморфных систем искусственного интеллекта. В разрезе нейроморфных свойств (коннекционизм, параллелизм, асинхронность, импульсный характер передачи информации, обучение на устройстве, локальное обучение, разреженность, аналоговые вычисления и вычисления в памяти) будут рассмотрены наиболее яркие проекты в мире. Особенное внимание будет уделено новинкам последнего года - IBM NorthPole, второе поколение Akida, чипам на основе мемристивных вычислений.
Мы расскажем об ML подходах, использованных нами для анонимизации персональных данных 15 тб базы крупной медицинской компании, которые позволят тренировать новые алгоритмы в диагностике и лечении заболеваний.
Поскольку медицина представляет самый сложный случай в области анонимизации и содержит в 3х больше разнородных неструктурированных данных, сложные паттерны ПД. Наши методики могут быть интересны большому количеству участников в различных отраслях как банки, ритэйл и телеком.
Generative AI is one of the cutting-edge areas in machine learning. It is primarily associated with images and have gained worldwide popularity thanks to networks for image creation: Dall-E, Stable Diffusion, and Midjourney. But in this talk we will not talk about images. Generative models have also been widely used in natural sciences and industrial applications. We will consider several cases in astronomy and high-energy physics experiments at the Large Hadron Collider. Finally, we will discuss how generative models are used to model the behavior of complex systems and data anonimization.
В этом докладе мы представим HypoFinder, инновационный инструмент, использующий современную модель большого языка для фундаментального улучшения начальных этапов научного исследования. Мы продемонстрируем надежные возможности HypoFinder, начиная с его автоматизированного выбора формализма, жизненно важного для выработки надежных гипотез. Наше исследование распространяется на способность инструмента составлять тщательные исследовательские планы, основанные на тщательном анализе курируемого массива научных статей. Мы обратим особое внимание на мощную функцию фонового поиска HypoFinder, которая автоматизирует извлечение и обобщение информации из соответствующих статей, тем самым предоставляя исследователям краткие, необходимые знания о текущих и основополагающих работах в их области. Доклад даст представление о технологии LLM, продвигающей HypoFinder, с демонстрационными примерами, включая поиск новых материалов с твердыми ионными электролитами — ключевых в технологии аккумуляторных батарей - и разработку выигрышной стратегии для pinewood derby, демонстрирующей универсальность HypoFinder в различных сценариях исследований. Мы обсудим практические реализации, размышляя о том, как автоматизация, подобная HypoFinder, может изменить научную креативность, эффективность и сотрудничество, изменив будущее научных начинаний.
GigaSearch или Поисковая система на GigaChat
Подробнее
Прохор Гладких, SberDevices
Расскажу, как мы боремся с галлюцинациями и устареванием данных в GigaChat с помощью подхода RAG (Retrieval-Augmented Generation)
14:00 – 15:00
Обед
15:00 – 16:00
Параллельные сессии
Питч сессия стартапов
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Интеллект для роботов и беспилотников: LLM и планирование
Компьютерное зрение - научные доклады
Зал 4
Нейроморфные и нейронные вычисления
Роман Доронин, Bioptic.io
Модератор
Михаил Киселев, Лаборатория Касперского
Модератор
Towards Unified Intelligence: Next-Generation Robotics Brain for Humanoids
Алексей Постников,
Sber Robotics Lab
Подробнее
LLM-based agents and their planning capabilities
Алексей Ковалев,
МФТИ
Подробнее
Nonlinear dynamics and machine learning for computational neuroscience and vice versa
Олег Масленников,
ИПФ РАН
Подробнее
Александр Резанов,
Rask AI
Модератор
Efficient Video Classification Algorithms and Facial Expression Recognition
Андрей Савченко,
Sber AI Lab
Подробнее
JPEG AI и артефакты — проблемы внедрения нейросетевых алгоритмов
Дмитрий Ватолин,
Институт ИИ МГУ
Подробнее
The brain's oscillatory system is reconfigured as a whole to perform a different cognitive task
Виктор Введенский,
Курчатовский НИЦ
Подробнее
Нейроморфные структуры
Михаил Желудев,
Bosch
Подробнее
Real-time Face Recognition: methods of training fast and accurate models for inference on mobile devices
Вадим Селютин,
VisionLabs
Подробнее
Атлетический интеллект антропоморфного робота и почему это сложно
Егор Давыденко,
MIPT
Подробнее
Наталья Подсосонная, Сколтех
Модератор
Робототехника, управляемая памятью: Новая парадигма планирования траектории
Полина Федотова,
Sber Robotics Lab
Подробнее
В 2024 году выходит новый стандарт сжатия JPEG AI. Автор, один из немногих в России входит в комитет по стандартизации. О возможностях и проблемах нового стандарта и будет рассказано.
Thesis: We will delve into our strides in developing a next-generation general-purpose brain designed for (but not limited to) humanoid robots. The research encompasses next components: 1. Task Planner: Employing LLM/VLM based models, system decomposes human-provided tasks, ensuring integration with the robot's understanding of its surroundings. It dynamically adjusts plans based on real-time video feedback, enhancing adaptability to changing environments. 2.Manipulation Model: The transformer\diffusion based imitation learning model interprets video input from robot sensors and task instructions from the Task Planner. It generates action trajectories, empowering humanoid robots to execute tasks with human-like precision and efficiency. 3.Navigation Model: Our multimodal navigation model, with a Navigation Planner, orchestrates humanoid robot movement from point A to B, incorporating language-conditioned navigation, mapping, localization, target search, global route planning, and waypoint generation. In our presentation, we will delve into recent advances in whole-body control. This component optimizes trajectories from manipulation and navigation models, ensuring stability, preventing falls, and maintaining the required velocity and orientation during movements. In this presentation, we share our vision for the future of robotics intelligence, emphasizing recent breakthroughs in each module. Beyond showcasing individual advancements, our goal is to initiate a discourse on seamlessly integrating these modules into a unified brain. Our vision goes beyond isolating separate models of task planning, manipulation, and navigation, toward a harmonious architecture that transforms humanoid robots into truly intelligent entities.
In this talk, I am going to review recent results at the intersection between machine learning, nonlinear dynamics and computational neuroscience. Networks of coupled model neurons are a traditional tool for studying emerging phenomena underlying sensorimotor and cognitive processes in computational neuroscience. These models until recently have been designed heuristically and have been usually studied using approaches developed in the nonlinear dynamics community. Machine learning stemming from theoretical neuroscience, has achieved impressive success while developing as an independent field. Nowadays, it influences a variety of disciplines including its predecessor - neuroscience. Next generation models in computational neuroscience take inspiration from machine learning to explain basic principles of neurcognitive phenomena based on traditional and newly developed methods of nonlinear dynamics, network science and data science. I will discuss a series of modern frameworks in computational neuroscience and illustrate them by several models mainly in the form of recurrent neural networks which are used for uncovering dynamic and population mechanisms of neural computations.
В 2024 году выходит новый стандарт сжатия JPEG AI. Автор, один из немногих в России входит в комитет по стандартизации. О возможностях и проблемах нового стандарта и будет рассказано.
In this talk, I will present the high computational complexity problem for the frame-wise video classifiers. I will overview known efficient algorithms, such as AdaFrame, LiteEval, FrameExit, OCSampler, etc. Moreover, I will present the novel approach presented at the ICML 2023 conference based on the ideas of sequential analysis and adaptive frame rate.Текст или голосовое сообщение оценивается по количеству переданной информации. Однако живому читателю или слушателю понятно, что эти сообщения несут определенный смысл. Смысл – это нечетко определенное понятие с неясным масштабом. Минимальным же сообщением передающим смысл принято считать слово. Слова могут быть близкими и далекими по смыслу, причем одно слово может иметь разные смыслы. Мы использовали близость слов по смыслу в качестве меры для построения вмещающего пространства для всех глаголов и прилагательных русского языка. В результате оказалось, что тезаурусы глаголов и прилагательных могут быть отображены на компактные круглые области, расположенные на двумерной поверхности. Каждая из этих областей делится на три примерно равных сектора, вмещающих слова с положительным, нейтральным и отрицательным эмоциональным содержанием. Внутри этих секторов размещаются группы слов, выстроенных в упорядоченные списки, относящиеся к определенной семантической категории. Размеры списков плавно меняются от десятков слов до нескольких слов в группе. Мы полагаем, что этот результат отражение того, как устроена словарная память в коре мозга человека.
The human brain continuously performs elementary cognitive tasks, and it is unclear how the cortical neural networks interact with each other in doing this. We set up two similar experiments on recognition of spoken words simple visual patterns. This can be attributed to the study of the execution of elementary cognitive tasks. We see that in the process of making a decision about which word was heard, about a dozen different places of the cortex synchronously stop running processes at the moment the button is pressed. Most likely, it is just the coordinated activity of these neural populations that triggers this button press. To further advance this research, one needs methods from artificial intelligence which fragment the audio stream into separate words for speech processing systems. The encephalogram can also be presented as a chain of episodes that obviously perform certain functions. The episodes are probably analogues of words for the internal communication between different areas of the brain, workin
В данной статье рассматриваются проблемы, препятствующие полной реализации потенциала нейронных сетей, и предлагается новый нетрадиционный подход обучения, основанный на использовании нейроморфных структур. Нейроморфные структуры не требуют алгоритма обратного распространения ошибок, за счет введения "обобщенного перцептрона", увеличивающего размерность входа согласно топологии данных каждого слоя, реализующий алгоритм анти-диффузионного увеличения размерности. Данный алгоритм не требует использования градиентного спуска на каждом слое, что дает возможность избегать застревания в локальных минимумах минимизируемого функционала ошибки.
Наиболее точные решения по распознаванию лиц строятся на основе больших моделей глубокого обучения. Для успешного продуктового внедрения на мобильные платформы в условиях ограниченных вычислительных ресурсов эти модели должны быть не только точными, но также быстрыми и легковесными. В этом докладе разберем следующие вопросы: 1) Как выбрать современную компактную архитектуру с наилучшим балансом скорости и качества? 2) Какие трудности могут возникнуть при распределенном обучении face recognition модели на датасетах с миллионами изображений и сотнями тысяч классов? 3) При помощи каких методов передачи знаний от больших моделей к более маленьким можно минимизировать потери в точности из-за сокращения размера архитектуры?
This presentation presents a comprehensive exploration of innovative methodologies aimed at refining the capabilities of robotic manipulators through the integration and adaptation of advanced data models. Initially, we delve into the critical role of historical data, emphasizing its significance in formulating behavioral cloning policies. By methodically integrating past sensor-visio-motor data into prediction algorithms, this research demonstrates substantial improvements in the generation of future trajectories for robotic manipulators. Further, we introduce the employment of Recurrent Memory Transformers in robotic models, showcasing their effectiveness in capturing and utilizing historical action data. This approach significantly boosts the predictive accuracy and reliability of the robot's future action policies, marking a substantial advancement in robotic cognitive functions. In a groundbreaking exploration, we adapt diffusion models, primarily designed for image synthesis, to the field of robotic trajectory forecasting. This segment focuses on the innovative integration of covariance matrices within these models, enabling precise predictions of the probabilistic distribution of noise in future robotic trajectory paths. The thesis also addresses the limitations inherent in deploying conventional, pretrained large vision models within robotic contexts. It highlights the inefficiencies in feature extraction, particularly due to the high similarity of sequential robotic imagery, and underscores the necessity for more specialized vision models tailored to the unique demands of robotic applications. Conclusively, the research synthesizes these advanced techniques, illustrating how their integration significantly enhances the generalization capabilities of manipulation diffusion models. This integration fosters substantial advancements, paving the way for more accurate, adaptable, and efficient robotic manipulation across a wide range of practical scenarios. The findings of this thesis are poised to contribute profoundly to the field of robotics, offering novel insights and robust solutions for complex manipulation tasks.
Представьте что вы управляете новой моделью квадрокоптера. Модель эта прогрессивная, у нее пропеллеры не только можно привычно регулировать по мощности, но и наклонять в разные стороны.

Но есть проблема - доставшийся вам экземпляр существенно неисправен.

Во-первых, отвалились половина из четрыех его пропеллеров. Остались только ровно два на противоположных концах корпуса.

Во-вторых, с системой питания оставшихся пропеллеров проблемы - вы не можете включить сразу оба. Одновременно получается включить либо только левый, либо только правый, да и на переключение надо затратить некоторое время.

В-третьих, с системой наклона этих пропеллеров тоже проблемы. Наклон пропеллера можно менять только когда он выключен. Если пропеллер включен - привод его наклона уже не работает.

С первого взгляда адекватный полет в нужном направлении в таких условиях невозможен, такая система непременно упадет.

Но как ни странно описанный выше пример достаточно хорошо отражает физику такого привычного для человека процесса, как ходьба на двух ногах. Для человека это просто и привычно, мы ходим не задумываясь как мы это делаем. Но чтобы научить так же хорошо ходить двуногого робота - нам надо научиться управлять тем самым сломанным квадрокоптером из примера выше.

В своем докладе я кратко рассмотрю сложность и красоту задачи ходьбы двуногого антропоморфного робота, расскажу про современные подходы к решению данной проблемы и как мы это делаем на наших роботах в лаборатории МФТИ.

Кирилл Штабцовский,
Aloniq
Жюри
Тамаз Хунчжа,
Rpv VC Fund
Жюри
Илья Партин, Brayne.vc
Жюри
Дмитрий Степанов, Яндекс, Армения
Жюри
16:00 – 16:15
Перерыв
16:15 – 17:00
Параллельные сессии
Ген ИИ: LLM - манипуляция и детектирование
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Интеллект для
роботов и беспилотников: зрение и навигация
Зал 4
ИИ и образование
От семантических к мульти-модальным картам в робототехнике
Дмитрий Юдин,
МФТИ
Подробнее
Никита Андриянов,
Фин. Университет
Модератор
Андрей Фильченков, ИТМО
Модератор
Будет объявлен позже
Модератор
Автономные системы для анализа атак на промышленные сети: разбор неизвестных протоколов и детекция аномалий
Алексей Синадский,
СайберЛимфа
Подробнее
Интеграция машинного обучения в web firewalls
Александр
Кожевников,
UDV group
Подробнее
3D компьютерное зрение для мониторинга энергетических систем
Садреддинов Джавид, Иннополис
Подробнее
Архитектура беспилотного транспорта нового поколения
Алексей Воропаев, SberAutoTech
Подробнее
Роман Горбачев, МФТИ
Roki X - настольная образовательная платформа, для исследований антропоморфных роботов
Подробнее
Путь от университета до компании. Как корпорации растят кадры вместе с вузами
Александр Сахнов, X5 Tech
Подробнее
ИИ в интернете
Прохор Гладких, SberDevices
Модератор
Ирина Пионтковская
Huawei Noah Lab
Психометрия больших языковых моделей
Подробнее
A Reworr,
Deteact
Социальная инженерия ИИ: методы убеждения человека в атаках LLM
Подробнее
ИИ в интернете
Алексей Корепанов,
Контур
Внедрение модели realtime обработки звука в Web
Подробнее
Black and white lists are required for WAF to work. White lists are difficult to create, and black lists often cause false developments. We suggest using ML to solve these problems.
В докладе представлен метод восстановления структуры сетевого трафика из потока байт до понятных полей. Разработанный метод позволяет анализировать и защищать системы без необходимости получения спецификаций используемых сетевых протоколов. Представлен метод выявления аномальной сетевой активности, основанный на моделировании системы в терминах гибридных автоматов. Передаваемые по сети данные обрабатываются, объединяются в состояния, для которых определяются допустимые границы и направления изменения. Аномалии выявляются как отклонение реального (наблюдаемого) поведения системы от ожидаемого (моделируемого).
В докладе рассмотрим полный путь от студенческой скамьи до первой работы как со стороны студента, так и со стороны компании. Насколько фундаментальное образование закрывает потребности компаний, как синергия корпораций с университетами помогает уменьшить разрыв. Обсудим, почему организации хотят работать с университетами.
В этом исследовании рассматривается социальная инженерия и психология в системе безопасности LLM. Опираясь на исследования в области социальных наук, мы рассматриваем параллели между обманом людей и обманом LLM, стремясь понять, как можно повлиять на такие модели или "взломать" их.
Как исследуют LLM с помощью методов психометрии (то есть человеческой психологии), и что при этом получается
В настоящее время в интеллектуальной робототехнике наблюдается переход от семантических карт к мультимодальным, которые могут содержать не только информацию о препятствиях и их типах, но и данные с текстовыми описаниями объектов или даже звуком, которые они издавали. В докладе будут рассмотрены современные нейросетевые методы, которые позволяют строить такие карты. Обсудим также оригинальные алгоритмы и примеры их использования на открытых датасетах, данных из фотореалистичного симулятора и реального мобильного робота. Отметим перспективы их применения для задач навигации и вызовы для запуска подобных подходов на встраиваемых устройствах.
В докладе впервые будет представлена передовая образовательная и исследовательская платформа для гуманоидной робототехники Roki X, разработанная в лаборатории МФТИ совместно с командой Старкит. Платформа состоит из гуманоидного робота, созданного на основе собственных сервомоторов, схемотехнических и архитектурных решений, симулятора и библиотеки алгоритмов управления движениями и компьютерного зрения, и API обеспечивающего доступ пользователя к платформе. Платформа предназначена для школьников старших классов и студентов, а также дает возможность участвовать в международных соревнованиях RoboCup и FIRA.
Мониторинг энергетической инфраструктуры является важнейшей обязанностью компаний, требующей выделения значительных ресурсов для эффективного решения проблемы. Отключения электроэнергии приводят к финансовым потерям, но ИИ в сочетании с технологиями дронов может обеспечить раннюю диагностику объектов. Подобные решения становятся неотъемлемой частью операционных активов энергетических компаний. Мы обсудим, как внедрение ИИ повлияло на мониторинг линий электропередач и других объектов с помощью алгоритмов 3D Computer Vision. Кроме того, будет представлен анализ разграничения зон безопасности, включая растительность, для повышения общей безопасности системы.
В докладе будет представлен новый подход в разработке технологий беспилотного вождения, основанный на использовании нейронных сетей. Современные достижения в области искусственного интеллекта открывают возможности для замены традиционных, обширных кодовых баз автономного вождения на более компактные, эффективные и адаптивные системы. Этот подход обещает не только упростить и ускорить разработку беспилотных автомобилей, но и значительно повысить их безопасность и надёжность.
В последнее время мы, в СКБ Контур, начали активно работать с внедрением различных ML моделей в Web. Подразумевается, что ML модель будет работать на компьютере пользователя. Поэтому хотелось бы рассказать о вызовах и проблемах, которые мы встретили, а также как мы их победили.


В докладе хочется подсветить две основные темы:

  1. ML тема. Как адаптировать обычную torch модель к запуску в Web-е для realtime обработки аудио, какими способами можно запускать модель в Web-е.

  2. Frontend тема. Какую web-архитектуру выбрать для запуска подобных моделей, чем удобна каждая архитектура и какие у них есть проблемы. Подсветить также какие ограничения ставятся для ML модели в условиях необходимости realtime обработки звука.

17:00 – 17:30
Перерыв, кофе
17:30 – 18:45
Пленарная сессия 4
Эмерджентность LLM - путь к AGI?
Большой конференц-зал
17:30 – 18:00
Эмерджентность
в искусственных нейронных сетях
Татьяна Шаврина, Snapchat, UK
Доклад даст обзор методик оценки LLM, используемых для изучения общей производительности, безопасности и различных человекоцентричных метрик.
Методы AI Alignment и эксперименты по верификации эмеджентности в LLM рассматриваются через призму корпусной лингвистики и мета-анализа более чем 20 существующих исследований. В конце концов, есть ли на самом деле доказательства того, что эмерджентность — это не просто утечки данных?
18:00 – 18:30
Эмерджентность
в естественных нейронных сетях
Константин Владимирович Анохин,
проф., д.м.н., академик РАН
Институт исследования мозга, МГУ
Эмердженция – возникновение высокопорядковых явлений из низкопорядковых. Классические примеры эмердженции – возникновение жизни или возникновение разума и сознания в развивающейся нервной системе. Теория нейронных гиперсетей направлена на объяснение последнего случая. Из ее первых принципов следуют три формы эмердженции, наиболее важной из которых является нисходящая эмердженция. Она проявляется в возникновении у элементов нейронной сети свойств, присущих целому когнитивному агенту. Удивительно, что искусственные нейронные сети, несмотря на их огромные отличия от естественных, демонстрируют такое же эмерджентное свойство. В докладе будут разобраны механизмы глубокой эмердженции в нейронных сетях мозга и обсуждены возможные параллели с появлением этого феномена в искусственных нейронных сетях.
18:45 – 19:00
Закрытие конференции
Большой конференц-зал
20:30 – 23:00
Вечеринка
У Вас будет замечательная возможность неформально пообщаться со спикерами и участниками конференции и послушать выступления музыкальных групп компаний ИИ индустрии!

По многочисленным просьбам, формат вечеринки пересмотрен в сторону более тихого вечера для общения. Запланирован короткий концерт одной музыкальной группы и спокойная музыка в остальное время.

Вечеринка будет в секретном месте) После окончания конференции для участников организуют трансфер к месту вечеринки.
День посвящен новым впечатлениям и общению!

Первая половина дня: экскурсия в старую столицу Грузии – Мцхету и храм и Светицховели, но сначала поднимемся к монастырю Джвари .

Вторая половина дня: мы совершим настоящее путешествие в мир грузинских вин и гостеприимства! Поедем на прекрасную винодельню, посетим производство, увидим чем отличается грузинская технология (выдержка в квеври) от европейской технологии (выдержка в нержавейке и/или дубовой бочке), попробуем множество белых и красных вин в отличной компании! И там же можно будет купить вино с собой.

Регистрация на экскурсию и на поездку на винодельню проводится за дополнительную оплату. Регистрация будет объявлена дополнительно, участникам конференции будет сделана рассылка. На обе экскурсии можно будет поехать +1.

Если Вы не получили рассылку с информацией о том, как зарегистрировать на экскурсию - напишите пожалуйста на org@opentalks.ai c темой Экскурсии
После конференции вы можете присоединиться к группе, которая едет кататься на горных лыжах и сноубордах в Гудаури, лучший горнолыжный курорт в Грузии! Отличная компания утром и вечером и днем на склонах гарантирована! Это прекрасное окончание конференции!

Оплата проживания и катания оплачивается отдельно. Чтобы присоединиться к группе по горнолыжному катанию, напишите на org@opentalks.ai с темой "Mountain skiing".