Открытая конференция по ии

OpenTalks.AI /
6-7 Марта 2024,
Тбилиси


Друзья, к сожалению мы с очень печальными новостями((
1. Конференция в Тбилиси отменяется. По независящим от нас причинам. Нам очень больно и грустно, но такова ситуация.

2. Извините за краткость, все подробности в понедельник утром, до этого не будем отвечать, нам надо самим все переварить, извините.

3. Мы, конечно, вернем всем участникам и партнерам деньги, которые вы заплатили. Подробности будут в рассылке.

Программа
OpenTalks.AI 2024

версия от 15.02.2024
Время по Тбилиси, GMT+4
19:00-21:00
Welcome drinks and networking
Вечер накануне конференции - прекрасное время выпить бокальчик вина и встретить знакомые лица в неформальной обстановке!) И конечно познакомиться с новыми людьми!)

Там же вы сможете зарегистрироваться на конференцию и получить бейдж, чтобы избежать очереди утром)

Место проведения будет объявлено в рассылке по участникам конференции накануне мероприятия.

День LLM и GenAI

Среда, 6 Марта
08:30 – 10:00
Регистрация и приветственный кофе
09:00 – 09:45
Введение в ИИ для новичков
Игорь Пивоваров, OpenTalks.AI
Пока конференция не началась - для тех, кто только начинает свой путь в ИИ, краткое знакомство с основными технологиями ИИ. Простым языком про компьютерное зрение и большие языковые модели, что такое трансформеры и attention, обзор технологий и применений и как они будут представлены на конференции.
09:45 – 10:00
Перерыв
10:00 – 11:30
Пленарная сессия 1 - обзоры
Большой конференц-зал
10:00 – 10:10
Открытие конференции и первого дня
Игорь Пивоваров, OpenTalks.AI
Что будет на конференции, основные идеи, цифры, акценты.
10.10 – 10.50
Развитие больших языковых моделей: от понимания языка до автономных агентов
Михаил Бурцев
London Institute for Mathematical Sciences (UK)
В этом выступлении мы рассмотрим уровень развития и текущие ограничения больших языковых моделей (LLM), таких как ChatGPT, которые произвели революцию в ИИ за последний год. В первой части будет общий обзор LLM, их возможностей решения широкого спектра проблем понимания естественного языка. Также будут представлены данные, показывающие, что LLM могут отставать от более специализированных традиционных моделей NLP в решении определенных конкретных задач, иллюстрируя компромисс между универсальностью и качеством, специфичным для конкретной задачи. Затем мы углубимся в фундаментальные ограничения размера входного сигнала трансформера и представим наше инновационное решение: разработку преобразователя рекуррентной памяти, который устанавливает новый рекорд по длине последовательности, обрабатываемой нейронной сетью. Во второй части доклада мы обсудим потенциал LLM в создании автономных агентов, способных к независимым действиям и принятию решений. Мы рассмотрим популярные методы подсказки, такие как цепочка мыслей (chain of thought) и дерево мыслей (tree of thought), и рассмотрим текущие проблемы, позволяющие LLM изучать и применять абстрактные правила, особенно в нестандартных областях. Цель этого доклада - дать всестороннее представление о том, где LLM преуспевают, где они терпят неудачу, а также о захватывающих возможностях и вызовах, которые ждут нас впереди в исследованиях и приложениях искусственного интеллекта.
10.50 – 11.30
Превосходя обучающие данные: получаем больше от LLMs на этапе выполнения.
Александр Новиков (online)
DeepMind (UK)
Языковые модели становятся все более повседневным инструментов показывающим впечатляющие возможности по интерполяции обычающих данных. Но могут ли они создавать новые знания, превосходящие то что можно найти в интернете?
Я представлю обзор недавних идей о том, как можно подойти к задаче создания новых знаний при помощи LLM в различных областях: генерации кода (такие работы, как FunSearch (Nature, 2023), AlphaCode и AlphaCodium), математики (AlphaGeometry), действиях (Voyager: агент в Minecraft) и тексте (Tree of thoughts)."
11:30 – 12:00
Перерыв, кофе
12:00 – 12:45
Параллельные сессии
Юридическая сессия
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Рекомендательные системы - под капотом
Зал 4
Генеративный ИИ: мульти-модальность
Будет объявлен позже
Модератор
Александр Тужилин,
NYU
Туториалы
по LLM

Когда поиск разнообразия встречается с неожиданностью: Включение поведения, стремящегося к разнообразию, в дизайн неожиданных рекомендательных систем
Подробнее
Туториал - Как учить большие языковые модели
Мурат Апишев,
Samokat.tech
Подробнее
Хольгер Цшайге,
Infotropic Media
Модератор
Точные алгоритмы для факторизации булевых матриц и их применение в рекомендательных системах
Дмитрий Игнатов
НИУ ВШЭ
Подробнее
Будет объявлен позже
Модератор
Алексей Гончаров, Compress.ai
Эффективный инференс LLM для прикладных задач
Подробнее
Денис Димитров,
МГУ
Большие мультимодальные модели - путь к AGI?
Подробнее
LLM и мульти-модальность Sber AI
Ирина Абдуллаева
AIRI
Mультимодальная модель событий AIRI
Подробнее
Mульти-модальная модель событий AIRI
Тема уточняется
Thomas G. Martin,
Lawdroid, CA
Подробнее
Alan Ragueneau, Denton Nextlaw, SW
Тема уточняется
Подробнее
Анна Романова,
МФТИ
Начала законодательства для автономных систем искусственного интеллекта.
Подробнее
Алексей Васильев, Сбер
Turning Dross Into Gold Loss: is BERT4Rec really better than SASRec?
Подробнее
Большие языковые модели являются основой большинства AI-продуктов, и компании постоянно соревнуются друг с другом, стараясь обучить как можно более сильные модели. Процесс создания LLM является нетривиальным и состоит из широкого набора этапов и подзадач. Несмотря на отсутствие идеальных решений, в ходе множества экспериментов за последние годы исследователи выделили основные идеи и техники, помогающие получить модель более высокого качества с меньшими затратами времени и ресурсов. В рамках туториала будут рассмотрены основные аспекты обучения LLM (данные, архитектура, масштабирование и оптимизация обучения и дообучения, модификация и оценка моделей) и наиболее распространённые практики, связанные с ними. Рассказ рассчитан на слушателей с опытом работы с моделями ML и DL, не специализирующихся на обучении LLM.
Искатели разнообразия - это те клиенты, которым легко надоедают продукты, которые они покупали ранее, и, следовательно, они предпочитают новый контент для расширения своего кругозора. Несмотря на свою распространенность, поведение, связанное с поиском разнообразия, практически не изучается в рекомендательных приложениях из-за различных ограничений в существующих мерах по поиску разнообразия. Чтобы восполнить пробел в исследованиях, в этой статье мы представляем систему поиска разнообразия для измерения уровня поведения потребителей, стремящихся к разнообразию, в рекомендациях, основанных на их отчетах о потреблении. Мы подтверждаем эффективность нашей системы с помощью опросов пользователей, проведенных в Alibaba, где наши показатели стремления к разнообразию хорошо согласуются с самооценками потребителей в отношении их поведения, связанного с поиском разнообразия. Кроме того, мы представляем систему рекомендаций, которая сочетает выявленные уровни поиска разнообразия с неожиданными рекомендательными системами в литературе по интеллектуальному анализу данных, чтобы удовлетворить неоднородное стремление потребителей к разнообразию продукции, в которой мы предоставляем более неожиданные рекомендации по продукту потребителям, ищущим разнообразие, и наоборот. С помощью автономных экспериментов по трем различным сценариям рекомендаций и крупномасштабного контролируемого онлайн-эксперимента на крупной платформе потоковой передачи видео мы демонстрируем, что модели, соответствующие нашей системе рекомендаций, значительно повышают различные показатели эффективности бизнеса и приносят ощутимый экономический эффект для компании. Наши выводы приводят к важным управленческим выводам, позволяющим лучше понять поведение потребителей, стремящихся к разнообразию, и разработать рекомендательные системы. В результате компания внедрила наиболее эффективную модель из предложенных нами фреймворков для обслуживания всех потребителей на платформе потоковой передачи видео.
В этом докладе мы рассмотрим некоторые свойства современных алгоритмов факторизации булевых матриц (таких как GreConD и IterEss), популярных методов интеллектуального анализа данных с бинарными реляционными данными. Этот жадный алгоритм был вдохновлен тем фактом, что оптимальное число множителей для разложения булевой матрицы на множители (BMF) может быть выбрано среди формальных понятий соответствующего формального контекста. В частности, мы рассматриваем один из самых сложных случаев (с точки зрения количества возможных факторов), так называемые контраноминальные шкалы, и показываем, что выходные данные GreConD в этом случае не являются оптимальными. Более того, мы формально анализируем его выходные данные с помощью рекуррентных и генерирующих функций и получаем замкнутую форму для возвращаемого количества факторов. Алгоритм, генерирующий оптимальное количество факторов и соответствующие матрицы произведений P и Q, также предоставляется нами для случая контраноминальных шкал. В дополнение к алгоритмическим исследованиям мы предоставляем слушателям краткое изложение наших предыдущих результатов по приложениям BMF для совместной фильтрации (в сотрудничестве с Е. Неновой, М. Ахматнуровым и др.), а также некоторые недавние результаты для булевых тензоров. (Это совместная работа с Александрой Яковлевой и Язагом Мезиане)
Как сделать инференс LLM быстрым, эффективным по цене и кастомизируемым при работе на серверах компании при отсутствии дорогих GPU? В докладе поделюсь опытом разработки и расскажу о методах масштабирования инфраструктуры под LLM и подходах к росту эффективности песочницу для экспериментов.
Сейчас в научной и бытовой сфере большой популярностью пользуются большие языковые модели (large language models). Про них мы читаем новости, видим впечатляющие видеопрезентации крупных корпораций и узнаём конспирологические теории о том, что эти самые языковые модели уже познали мир лучше, чем средний человек. Попробуем последовательно разобраться, что сейчас умеют LLM, с чем ещё, кроме текстов, могут работать и как они могут помочь в создании сверхсильной интеллектуальной машины. В рамках доклада поделюсь своим опытом исследований в этой сфере, расскажу об экспериментах, бенчмарках и других больших проблемах человечества в открытых вопросах, а также о нашей мультимодальной архитектуре OmniFusion. Обсудим также мультиагентный подход, способы «общения» LLM, механизмы Chain-of-Thought и Tree-of-Thought, общую память, self-reflection и другие аспекты, на которые уже стоит обратить внимание. Также немного расскажу и о наших исследованиях в области генеративного ИИ (а именно Kandinsky 3.0, Kandinsky Video) - и самое главное о том, как связать между собой OmniFusion и, например, Kandinsky в единую систему, которая может решать практически весь спектр задач на стыке разных модальностей
В области последовательностей событий, в отличие от компьютерного зрения (CV) или обработки естественного языка (NLP), не принято использовать предварительно обученную модель для решения сразу нескольких задач и обобщения на новые. Существующие подходы имеют ограничения с точки зрения гибкости, обобщения и вычислительной эффективности. Кроме того, интеграция длинных последовательностей событий в подходы, основанные на нейронных сетях, остается сложной задачей.
Для решения этих проблем в данной статье предлагается новый подход под названием Event Sequences Question Answering (ESQA), основанный на модели большого языка (LLM). Мы представляем все задачи, основанные на последовательности событий, в форме вопрос-ответ. Более того, мы предлагаем универсальный метод кодирования последовательностей событий с использованием обучаемого кодера, основанного на архитектуре Transformer. Эффективное извлечение признаков из выходных данных кодера и значительное сокращение длины последовательности достигаются за счет использования модели Q-Former в качестве соединительного уровня между кодером и LLM. Результаты наших эмпирических исследований показывают, что применение предварительно обученных моделей большого языка к модальности последовательности событий в ESQA обеспечивает качество, сравнимое с современными подходами для различных задач прогнозирования в многозадачных условиях в различных наборах финансовых данных с открытым исходным кодом. Кроме того, ESQA продемонстрировала адаптивность к новым задачам с качеством, превышающим статистические показатели.
How to make LLM inference fast, cost-effective and customizable when running on company servers in the absence of expensive GPUs? In the talk I will share my development experience and talk about methods of scaling infrastructure under LLM and approaches to efficiency growth sandbox for experimentation.
The significant part of the operational context for autonomous company management systems is the regulatory and legal environment in which corporations operate. In order to create a dedicated operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide basis for the joint work of individuals and autonomous artificial intelligence systems can form the grounds for the relevant legislation governing the development and implementation of autonomous systems.
undefined
В последнее время задача последовательных рекомендаций и прогнозирования следующего элемента становится все более популярной в области рекомендательных систем. В настоящее время наиболее современными являются модели на основе трансформеров SASRec и BERT4Rec. За последние несколько лет появилось довольно много публикаций, в которых сравнивались эти два алгоритма и предлагались новые модели. В большинстве публикаций BERT4Rec обеспечивает лучшую производительность, чем SASRec. Но BERT4Rec использует перекрестную энтропию поверх softmax для всех элементов, в то время как SASRec использует отрицательную выборку и вычисляет двоичную потерю перекрестной энтропии для одного положительного и одного отрицательного элемента. В нашей работе мы показываем, что если обе модели обучаются с одинаковыми потерями, которые использует BERT4Rec, то SASRec значительно превзойдет BERT4Rec как по качеству, так и по скорости обучения. Кроме того, мы показываем, что SASRec может быть эффективно обучен с отрицательной выборкой и по-прежнему превосходить BERT4Rec, но количество отрицательных примеров должно быть намного больше одного.
Александр Резанов,
Rask AI
Модератор
Илья Ненахов,
Яндекс Маркет
Внутреннее устройство нейробаннеров на Яндекс Маркете
Подробнее
В докладе я расскажу про решение реальной AdTech задачи по генерации рекламных баннеров на Яндекс Маркете при помощи современных нейросетевых архитектур. Мы немного поговорим откуда такая задача берется в рекламных системах, и в чем ее специфика в екоме. Фокус будет на технических деталях решения - YaGPT и ее дообучение под свои задачи, ptune, архитектура SAM и ее ускорение. Также я расскажу про устройство рантайма и всего продового процесса, с какими проблемами мы столкнулись, и что получили в итоге.
12:45 – 13:00
Перерыв
13:00 – 14:00
Параллельные сессии
Решения для бизнеса на базе LLM
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнесс
Туториал по CUDA
Математика и ИИ
Зал 4
Implementing AI into office software
Анна Плешакова, OnlyOffice
Роман Доронин, Bioptic.io
Модератор
Подробнее
RAG и его производные. Продуктовые кейсы, в которых LLM приносит реальную пользу бизнесу
Инна Лизунова,
Группа компаний ЦРТ
Подробнее
Как написать свой CUDA kernel: практический подход к низкоуровневой оптимизации
Григорий Алексеев, Perplexity
Подробнее
Сергей Кузнецов, НИУ ВШЭ
Математика и искусственный интеллект.
Иван Оселедец,
AIRI
Подробнее
Созданий приложений с LLM: больше, чем просто написать промпт
Подробнее
Сергей Веренцов, EORA
GigaSearch или Поисковая система на GigaChat
Подробнее
Прохор Гладких, SberDevices
При поддержке
Постерная сессия
Александр Гасников, Иннополис, МФТИ
AI вино, AI шоколад и другие новые методы оптимизации
Подробнее
В этом выступлении я выделю несколько фундаментальных проблем в ИИ, которым не хватает математического формализма, например, согласование больших языковых моделей. С другой стороны, многие математические концепции могут быть эффективно использованы для улучшения качества алгоритмов ML. Например, гиперболическая геометрия является ярким примером. Замена обычных вложений гиперболическими приводит к SOTA в обучении метрике.
Расскажу, как мы боремся с галлюцинациями и устареванием данных в GigaChat с помощью подхода RAG (Retrieval-Augmented Generation)
На первый взгляд может показаться, что создатели приложений, использующих LLM, просто пишут промпты и интегрируют их с публичным API. Однако при автоматизации сценариев с использованием LLM разработчикам необходимо уделять особое внимание правильности ответов и обеспечению безопасности при взаимодействии с моделью. В то же время развиваются методы проектирования цепочек вызовов LLM, что позволяет промпт-инженерам разрабатывать не просто промпты, а целые сценарии получения данных и вызовов модели при помощи таких техник, как ReAct, RAG, FLARE и других. В этом докладе будут освещены основные трудности, возникающие при создании приложений на основе LLM, список необходимых компетенций, а так же особенности планирования, разработки и поддержки подобных приложений.
На волне популярности LLM мы в ЦРТ пропустили через себя большое количество продуктовых пилотов. Большая часть из них тем или иным образом связана с генеративным поиском (RAG, Retrieval Augmented Generation) по очень разным источникам информации. В докладе мы поделимся собственным опытом решения продуктовых кейсов с использованием LLM:
- Во что в продуктовых кейсах может трансформироваться "ванильный" RAG? Как его узнать?
- В какие RAG-подобные кейсы идти стоит, а в какие - нет, и при каких условиях?
- Где бизнес-ценность в подобных кейсах?
Innovations in artificial intelligence have led to it becoming an integral part of society and finding applications in a variety of fields. In this session, we will cover AI implementation into office software; highlight what benefits AI can bring to users when working with documents; take into consideration various markets in terms of using the leading AI providers.
Agenda:
1. How to fuse a QKV Attention Layer into a single CUDA kernel?
2. Step-by-step guide to writing efficient kernels using a basic algorithm

Quick Overview:
1. We will explore kernel-level operations to understand how LLM layers function, specifically focusing on the QKV attention layer from llama_7b. I will present my approach for implementing a fused CUDA kernel, including code snippets. This session will also cover benchmark analysis and potential optimization strategies.
2. This segment involves a deeper examination of CUDA kernels, focusing on optimization techniques and profiling. We'll research the process of enhancing a basic histogram kernel, analyzing its behavior from various aspects and comparing it to a third-party solution.
В докладе пойдет речь о том, как решать задачи оптимизации, если невозможно получить градиент целевой функции и невозможно даже получить значение целевой функции. А можно только сравнивать между собой значения целевой функции в разных точках. То есть запросив значения целевой функции в наборе точек, можно, например, сказать, в какой точке значение было наименьшее (или наибольшее), но нельзя сказать, чему именно оно равно. Такие постановки задач возникают при разработке с помощью искусственного интеллекта различных продуктов питания (например, шоколада). В докладе будет обсуждаться вопрос, какие алгоритмы являются оптимальными для класса задач гладкой оптимизации (выпуклой, невыпуклой) большой размерности и малой размерности. Удивительно, но оказывается, оценки оракульной сложности оптимальных алгоритмов для задач оптимизации с таким оракулом получаются с точностью до логарифмического множителя такими же как для обычных безградиентных методов, в которых возможно вычисление значения функции.
Модератор
14:00 – 15:00
Обед
15:00 – 16:30
Пленарная сессия 2 - обзоры
Большой конференц-зал
15:00 – 15:45
Главное в Генеративном ИИ в 2023
Александр Нотченко, ODS London
Прошлый год был монументальным для генеративного ИИ, и скорее всего все знакомы с LLM (большими языковыми моделями) и их ролью в этой революции. Но в этом докладе я сделаю обзор других важных достижений в генеративных моделях за прошлый год, а именно в области генерации 2D изображений, Видео, Аудио, 3D моделей, анимации и прочего. Также я проанализирую основные причины которые на мой взгляд привели к появлению этих моделей.
15:45 – 16:05
ИИ в ритейле - обзор
Михаил Неверов, X5 Tech
В нашем выступлении мы покажем, как Data Science и AI трансформируют продуктовый ритейл, от выбора места для магазина до персонализации сервиса и оптимизации работы сотрудников. Рассмотрим примеры использования аналитики для прогнозирования трендов, управления запасами и разработки программ лояльности, которые увеличивают продажи и улучшают клиентский опыт.
Присоединяйтесь, чтобы узнать, как data-driven решения делают ритейл более адаптивным и клиентоориентированным.
16:05 – 16:30
Взгляд СТО на генеративный ИИ
Марина Дорохова,Яков и Партнеры
Доклад посвящен перспективам генеративного ИИ для бизнеса. Результаты получены в ходе нашего собственного опроса технических директоров 100 крупнейших компаний в России из 15 отраслей и посвящены их ожиданиям от внедрения генеративного ИИ, наиболее популярным сценариям использования, предполагаемому бюджету на генеративный ИИ, а также общим рискам и проблемам, встречающимся в этой области. Таким образом, в докладе обобщены основные уроки, которые бизнес, разработчики и исследователи могут принять во внимание при создании моделей генеративного ИИ и продуктов для конкретных отраслей.
16:30 – 17:00
Перерыв
17:00 – 18:00
Параллельные сессии
Рекомендательные
системы в бизнесе
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Генеративный ИИ: изображения и видео
Обучение с подкреплением
Зал 4
Туториалы
Тиндер в Прямых продажах
Елизавета Пушкарева,
Точка
Сергей Лукашкин, ВТБ
Модератор
Юрий Визильтер, ГОСНИИАС
Модератор
Подробнее
Аркадий Сандлер, True Click Technologies
Руслан Салахутдинов,
Carnegie Mellon
Последние достижения в RL (название уточняется)
Игорь Пивоваров,
OpenTalks.AI
Модератор
Подробнее
Рекомендательные системы в медиа платформах
Подробнее
Федор Смирнов,
Glowbyte Consulting
Вероятностное программирование
Подробнее
Руслан Ермагамбетов,
Контур
Пульс-индекс: динамическая модель оценки вероятности банкротства компании
Подробнее
Евгений Бурнаев,
Сколтех
От стохастических дифференц-иальных уравнений до задачи Монжа-Канторовича и обратно: путь к искусственному интеллекту?
Подробнее
Вероятностное програм-мирование
Методы оптимизации нейросетевых алгоритмов
Дмитрий Иванов,
МГУ, Цифрум
Подробнее
Владислав Корзун, МФТИ
Autoregressive models for Conversational Gestures Generation. The Path through GENEA challenges
Подробнее
Нейросеть для оптимизации количества и стоимости конверсий в рекламных кампаниях
Подробнее
Алексей Бирюков,
Андата
Будет объявлен позже
Модератор
Каждый день продавцы в Точке прозванивают 3000+ карточек, но что если мы можем влиять на этот процесс и подбирать карточки на прозвон для каждого продавца? Расскажу, как мы сделали машинку, которая ранжирует компании по вероятность конвертации в клиента, а потом переделали ее в своеобразный тиндер: карточки с контактами каждый день разделяются между продавцами на основе персональных скоров, предсказанной производительности и срочности прозвона. Затрону техническую сторону машинки для предсказания персональных скоров + стратегию бронирования карточек и как подобрать оптимальное временное окно бронирования. А ещё - покажу, сколько денег мы на этом заработали
undefined
В сфере услуг Over-The-Top (OTT) и Video On Demand (VOD) на операционную эффективность существенно влияют две основные проблемы: отток пользователей и использование контента. Высокий уровень оттока подрывает усилия, вложенные в привлечение пользователей, а неоптимальное использование контента может снизить интерес зрителей, что еще больше усугубляет проблему оттока. Эти платформы часто выделяют большую часть своих бюджетов на привлечение новых пользователей и защиту прав на контент. Поэтому решение важнейших вопросов о том, как поддерживать вовлеченность зрителей и какой контент приобретать - или как лучше использовать существующий контент - становится необходимым условием успеха в индустрии OTT/VOD.
В исследовании PWC подчеркивается, что удержание зрителей положительно коррелирует с широтой потребляемого контента, что указывает на то, что разнообразная и увлекательная библиотека контента является ключом к снижению уровня оттока. Учитывая это, лидеры рынка вкладывают значительные средства в сложные алгоритмы рекомендаций, стремясь выделиться на высококонкурентном рынке.
На предстоящей конференции будут представлены стратегии для компаний, у которых нет ресурсов для прямой конкуренции с гигантами отрасли. Она будет посвящена тому, как эти организации могут использовать передовые технологии в рекомендательных системах для повышения вовлеченности зрителей и принятия обоснованных решений по приобретению контента, тем самым находя свой собственный путь к успеху на переполненном рынке OTT/VOD.
Тема – вероятностное программирование и генеративные вероятностные модели. Вероятностное программирование позволяет включать в модели машинного обучения экспертные знания и допущения, в первую очередь о взаимосвязях различных факторов, и учитывать ненаблюдаемые факторы, которые управляют процессом генерации данных. В качестве практического примера будем рассматривать задачу определения скрытых потребностей, определяющих структуру чеков у покупателей.
В своем докладе расскажу про то, как мы в Контур.Фокусе разрабатывали и внедряли в продукт динамическую модель оценки вероятности банкротства. Данная модель призвана помочь пользователям Контур.Фокуса в оценке надежности контрагентов, так как обладает предиктивной способностью оценивать риск банкротства компании на основании данных бухгалтерской отчетности, арбитражных исков и других событий. Подробно разберем детали обучения и деплоя модели, с какими трудностями столкнулись при интеграции и как собирали обратную связь по новой фиче.

А.Н. Колмогоров - крупнейший математик XX века, основоположник современной теории вероятностей, также заложивший основы теории марковских случайных процессов с непрерывным временем. Эти результаты, оказавшие огромное влияние на развитие прикладных методов обработки сигналов, фильтрации, моделирования и обработки финансовых данных, в 21 веке снова оказались в центре внимания в связи с развитием искусственного интеллекта и его приложений. Действительно, для решения таких важных прикладных задач, как повышение разрешения изображений, синтезирование речи по тексту, генерация изображений на основе текстовых описаний, и др. требуются эффективные методы генеративного моделирования, которые способны порождать объекты из распределения, задаваемого выборкой примеров. Недавние достижения в области генеративного моделирования как раз и базируются на диффузионных моделях и используют математическую основу, заложенную еще в прошлом веке А.Н. Колмогоровым и его последователями. В докладе будет рассказано о современных подходах к генеративному моделированию на основе диффузионных процессов и на основе решения задачи Монжа-Канторовича. Будет показана связь решения энтропийно-регуляризованной задачи Монжа-Канторовича с задачей построения диффузионного процесса с определенными экстремальными свойствами. Работа соответствующих алгоритмов будем продемонстрирована на примере решения различных задач обработки изображений.
Современные нейронные сети представляют собой чрезвычайно ресурсоемкие алгоритмы с точки зрения памяти, вычислений и энергии. Это приводит к дополнительным затратам на их использование, а также ограничивает их использование на edge-устройствах. В туториале обсуждаются проблемы inference нейронных сетей с аппаратной и программной точки зрения. В первой мы кратко обсудим проблему «узких мест» фон Неймана и способы ее обхода. Во второй мы обсуждаем основные подходы к оптимизации нейронных сетей, такие как: pruning, кантизация, дистилляция, их варианты и их комбинации. Заодно сравним современные системы ИИ с мозгом и объясним причины большей эффективности мозга. Мы покажем, что наиболее эффективные подходы к оптимизации систем ИИ используют (в некотором смысле) принципы, основанные на мозге.
Развитие больших языковых моделей, а также систем синтеза речи привело к появлению "живых" агентов в виртуальных мирах. Этим агентам также требуется реалистичная жестикуляция во время взаимодействия с человеком. В своем докладе я расскажу о том, как такие жесты можно генерировать из речи и не только. Я представляю наши подходы к генерации разговорных жестов, возникшим в ходе участия в GENEA Challenges, что в итоге привело к трем статьям. Я расскажу о самой задаче, о первых подходах к её решению, а также о подходах, предложенных нами, с какой главной проблемой авторегрессионных моделей мы столкнулись, как мы пытались её решить и как нам помогли видеоигры.
Эксплуатация нейросети по масштабированию и последующей оптимизации брендовых рекламных кампаний, с условием повышения доли целевых заявок и без каннибализации органического трафика
18:00 – 18:15
Перерыв
18:15 – 19:00
Параллельные сессии
Предиктивная аналитика в бизнесе
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнес
Что может пойти не так?
LLM - мультиагентные модели
Зал 4
Предсказание успешности стартапа и прогнозирование портфеля венчурного фонда
Кирилл Штабцовский,
Aloniq
Подробнее
Марк Потанин,
Xihelm
Георгий Кекелидзе, IITech
Модератор
Александр Крайнов,
Яндекс
Модератор
Евгений Бурнаев,
Сколтех
Анастасия Семенова, Smile2Impress
Модератор
Виктор Носко
ФракталТех
FractalMath - Мультиагентный подход в решении математических задач arithmetic reasoning
Подробнее
Сергей Шумский,
Adam & Eva, Inc.
Нейро-символьный диалоговый интеллект за недорого
Подробнее
Машинное обучение в металлургии
Подробнее
Дмитрий Муравьев,
ММК - Информсервис
Дмитрий Ветров,
Constructor University
Иван Оселедец,
AIRI
Михаил Бурцев,
London Institute for Mathematical Sciences
Татьяна Шаврина,
Snapchat
Алексей
Шпильман,
Газпром Нефть
Илья Макаров,
МИСИС
LLM4Anything: мультиагентные LLM системы
Подробнее
Трансформаторы и синтетические данные для обнаружения дефектов на конвейерных лентах
Подробнее
Олег Карташев,
Severstal Digital
Представлена новая нейро-символьная архитектура больших языковых моделей. Она сочетает в себе обучение без учителя и обучение с подкреплением и требует на несколько порядков меньше вычислений для обучения по сравнению с нейросетевыми языковыми моделями. Сложность обучения в предлагаемой архитектуре растет линейно с размером данных, в отличие от квадратичной зависимости в нейросетевых моделях языка.
Мы предлагаем новый, мультиагентный подход к решению задач математического ризонинга. LLM показали значительный прогресс в решении мат. задач, однако они имеют фундаментальные ограничения и не позволяют добиваться высокого качества решения стабильно. В предлагаемом подходе агенты самоорганизуются для создания стратегии решения задачи на лету, что позволяет добиваться надежного решения целого класса математических задач арифметического ризонинга.
We explore predicting startup success using CrunchBase data and deep learning. Our model forecasts milestones like IPOs, unicorn status, and M&A for Series B and C startups. We achieved 14x capital growth (98th percentile of VC funds), identified high-potential startups, and stress the importance of diverse data for accuracy. This work shows deep learning's promise in startup success prediction.
1. Who are the mathematicians in the MMK? 2. What kind of problems they are solving by using different methods and instruments? 3. What is the economic effect of the application of the mathematical modelling? 4. Why mathematical modelling is related to the machine learning? 5. What kind of the case studies we have already carried out?
We will talk about the ability of Large Language Models (LLMs) to provide personalized business-oriented communication with the help of agents. We also tackle the problem of finetuning and adding new modalities for practical applications. Finally, we formulate core challenges and approaches for building applications over LLMs.
Мы покажем вам, как мы используем и улучшаем трансформеры и какие алгоритмы мы применяем для создания синтетических данных, чтобы предсказать редкие дефекты на конвейерных лентах.

День CV, RL и AGI

Четверг, 7 Марта
09:00 – 10:00
Регистрация
10:00 – 11:30
Пленарная сессия 3 - обзоры
Большой конференц-зал
10:00 – 10:10
Открытие дня
Игорь Пивоваров, OpenTalks.AI
10:10 – 10:50
Computer Vision - главное в 2023 году
Артем Санакоев
Meta AI
В этом выступлении я расскажу о самых интересных статьях года и достижениях в области компьютерного зрения. От новых масштабируемых архитектур, которые расширили возможности распознавания, до успехов, достигнутых в предварительном автоматическом обучении, которые открывают новые уровни понимания без обширных наборов размеченных данных. Мы исследуем объединение зрения и языка в мультимодальных системах, демонстрируя, как эти комбинированные входные данные улучшают машинное восприятие. В докладе также будут рассмотрены последние достижения в области fine-grained задач, включая сегментацию, обнаружение и отслеживание, демонстрируя точность и детализацию, которые теперь достижимы. Кроме того, я раскажу про роль генеративных моделей в обучении визуальному представлению и их применение в таких задачах, как сегментация и оценка глубины.
10:50 – 11:30
Обзор Reinforcement Learning за 2023 год
Алексей Шпильман
Газпром Нефть
Обучение с подкреплением, как прошел 2023 год?
Обсудим самые важные, самые интересные и пару весёлых статей.
11:30 – 12:00
Перерыв
12:00 – 13:00
Параллельные сессии
Компьютерное зрение в медицине
Зал 3 - Академия
Зал 2 - Разработка
Зал 1 - Бизнесс
Оптимизация вычислений
LLM - языковые модели
Зал 4
Обучение с подкреплением - научные доклады
ИИ уменьшает время и увеличивает эффективность при обследовании КТ
Анвар Курмуков,
AUMI.AI
Аркадий Сандлер,
True Click Technologies
Модератор
Станислав Моисеев, Тинькофф
Модератор
Ускорение работы LLM за счет тонкой настройки
Александр Демидовский,
Huawei Russian Research Institute
Подробнее
Быстрый вариант алгоритма Node2Vec
Полина Пластова,
YADRO
Подробнее
Фундаментальные модели в обработке медицинских изображений.
Евгений Сидоров,
Платформа Третье Мнение
Подробнее
Анастасия Семенова, Smile2Impress
Модератор
Федеративное обучение в 2023 году: Обновления, тренды и
направления развития
Денис Афанасьев,
CrossOverMarkets
Подробнее
Взаимодействие человека и ИИ в медицине
Илья Першин,
Иннополис
Подробнее
Автоматическая система для анализа OCT изображений сетчатки глаза
Кирилл Аксенов,
PREDICT SPACE
Подробнее
Юрий Чернышев,
Сайберлимфа
Мультиагентный Reinforcement Learning - обзор
Подробнее
Антон Плаксин,
Yandex Research
Обучение с подкреплением в дифференциальных играх с нулевой суммой.
Подробнее
Андрей Фильченков, ИТМО
Модератор
Подробнее
Управление перегрузками при передаче файлов на основе глубокого обучения с подкреплением
Александр Блохин, Huawei
Подробнее
Виталий Калев,
Huawei
Павел Браславский,
Nazarbayev University
You Told Me That Joke Twice: A Systematic Investigation of Transferability and Robustness of Humor Detection Models
Подробнее
Лингвистические и логические структуры для анализа текста
Дмитрий Ильвовский,
НИУ ВШЭ
Подробнее
Сергей Кузнецов,
НИУ ВШЭ
Мария Тихонова,
SberDevices, ВШЭ
mGPT: LLM, говорящая на 61 языке, включая грузинский и русский
Подробнее
Алексей Трутнев,
Huawei Russian Research Institute
Данный доклад представляет обзор области Federated Learning, освещая ее развитие и тренды на 2023 год. Федеративное обучение, быстро развивающееся направление в машинном обучении, включает в себя обучение алгоритмов на децентрализованных устройствах или серверах при локализации данных. Презентация начнется с краткого введения в федеративное обучение, объясняющего его основные принципы и значение.
Затем в докладе будут представлены ключевые кейсы и области применения, которые демонстрируют практическую пользу и универсальность
федеративного обучения в различных секторах экономики. Значительная
часть презентации будет посвящена обсуждению достижений в этой области
за 2023 год. Этот анализ основан на тщательном изучении общего
информационного пространства по этой теме, включая анализ тематических
конференций, академических публикаций, обновлений открытых инструментов и репозиториев GitHub.

Кроме того, в презентации будет представлен обзор новостей компаний,
разрабатывающих решения в этой области, с целью предоставить представление о бизнес- и технологических последствиях этих разработок. Будет предложена критическая оценка уровня зрелости технологии федеративного обучения, оценивая ее готовность к широкому внедрению. В этом аспекте будут затронуты проблемы, с которыми сталкивается данная
технология, потенциальные риски и перспективы федеративного обучения,
предоставляя всесторонний взгляд на ее текущее состояние и будущее развитие.

В этом докладе мы расскажем о проблемах управления перегрузками при передаче файлов, предложим реализацию алгоритма управления перегрузками на основе методов обучения с усилением и покажем, как он был применен в реальной жизни.
As industry needs to process growing amounts of training data, reduce the cost of fine-tuning a single model, and minimize the environmental effects, the task of accelerating the fine-tuning of large language models (LLM) has become extremely demanding. DAREL is a novel training data reduction method that operates with training samples based on losses obtained from a currently trained model or a pre-trained one. The proposed method is devoted to Large Language Models fine-tuning and is designed primarily to be combined with Parameter-Efficient fine-tuning methods, such as LoRA. The results of computational experiments provide compelling evidence of the enhancement of the fine-tuning quality and time of Large Language Models. DAREL allows an average 1.26x fine-tuning acceleration for GPT2-S, GPT2-M and GPT2-L on a variety of datasets, including E2E-NLG, DART and WebNLG, with an average BLEU drop of 1.44 p.p.
Node2Vec is a widely used algorithm for learning feature representations of the graph nodes. This algorithm is intensivelly used in multiple highload applications. Thus its performance is very important. There are two reference implementations of the Node2Vec in C++ and Python from Stanford Network Analysis Project (SNAP). However, their performance is not optimal. We introduce an optimized implementation of the Node2Vec algorithm, which performance is 2.5-5.1 times higher than the reference ones. We also prove that the accuracy of the optimized algorithm stays the same by solving a multi-label node classification problem on several datasets.
Обсудим, почему мы решили объединить мультимодальные сети, неразмеченные данные и новый взгляд на формат DICOM в единой фундаментальной модели. Что это нам дало и почему за этим будущее.
В основной части выступления будет рассмотрена проблема эффективного планировании лучевой терапии. Для планирования необходимо сегментировать большое количество анатомических структур. Задача сегментации осложняется тем, что 1) используются объемные медицинские изображения и 2) органы пациентов абнормальны. По этим причинам результаты автоматической сегментации требуют ручных исправлений. Будет представлен подход для оптимизации процесса исправления сегментации в режиме реального времени на основе информации о взгляде врача. В дополнительной части выступления будет рассмотрена проблема интерпретируемости глубоких моделей.
Neovascular age-related macular degeneration (n-AMD) is a form of AMD that is responsible for most cases of severe vision loss. Anti-VEGF therapy, which is the gold standard for the treatment of this pathology, is accompanied by OCT monitoring. However, this process is hampered by the lack of methods for accurately quantifying OCT images. The aim of this study is to develop and evaluate the accuracy of the automated calculation of the quantitative characteristics of PED, SRF and IRF biomarkers. The study material included OCT B-scans of patients with n-AMD and pigment epithelial detachment who underwent anti-VEGF therapy from 2014 to 2021. OCT B-scans obtained from a CirrusHD-OCT 5000 Carl Zeiss Meditech device. The neural network for OCT image segmentation was trained on a dataset including 251 and 385 images from Experiments 1 and 2, respectively. The images were annotated by experts highlighting PED, SRF and IRF biomarkers using Labelme software. Data preprocessing included image resizing, normalization, and conversion to grayscale format. The data set was divided into training and validation. To segment retinal structures, the UNET architecture with the Adam optimizer and the Categorical Cross-Entropy loss function was used. The algorithm for calculating quantitative biomarker characteristics was based on edge detection using the method of Satoshi Suzuki and KeiichiA be. Testing data set for access the efficiency of system that included algorithms for segmentation and calculation of quantitative characteristics of biomarkers, included 241 images for which the length and height of the PED were measured by a physician using built-in software. Also, the image data were marked with respect to 3 anatomical treatment outcomes: attached PED; non-attached PED; PED tear. The developed method for processing OCT images made it possible to segment the biomarkers PED, SRF and IRF with high accuracy. The segmentation model shows the best results for PED (0.9), but also shows good accuracy for SRF and IRF (0.72 and 0.69) with increasing number of training data in experiment 2. Automated algorithm for calculating quantitative characteristics of biomarkers on the test set data from patients with n-AMD showed no statistically significant difference when comparing measurements with a physician. The study also showed that the attached and non-attached PED groups were statistically significantly different regarding the height, extent and area of the PED. In addition, IRF area may also be a predictor of PED tear, since its values are statistically significantly different for groups 2 and 3. Thus, automated segmentation and calculation of biomarkers can achieve performance comparable to an ophthalmologist in assessing the quantitative characteristics of biomarkers in cases of neovascular macular degeneration.
Robust Reinforcement Learning (RRL) is a promising Reinforcement Learning (RL) paradigm aimed at training robust to uncertainty or disturbances models, making them more efficient for real-world applications. Following this paradigm, uncertainty or disturbances are interpreted as actions of a second adversarial agent, and thus, the problem is reduced to seeking the agents' policies robust to any opponent's actions. This paper is the first to propose considering the RRL problems within the positional differential game theory, which helps us to obtain theoretically justified intuition to develop a centralized Q-learning approach. Namely, we prove that under Isaacs's condition (sufficiently general for real-world dynamical systems), the same Q-function can be utilized as an approximate solution of both minimax and maximin Bellman equations, and we also indicate conditions when this Q-function can be decomposed. Based on these results, we present the Isaacs Deep Q-Networks (IDQN) and Decomposed Isaacs Deep Q-Networks (DIDQN) algorithms, respectively. We analyze their performance by comparing them with other baseline RRL and Multi-Agent RL algorithms. We consider both simple environments with known accurate solutions and complex large-dimensional MuJoCo environments. In each experiment, we thoroughly evaluate the agents' policies obtained after learning, training opponents against them using various RL algorithms with various parameters. The experiment results demonstrate the superiority of the presented algorithms in all experiments under consideration.
Reinforcement Learning is used for solving of different problems and tasks in different subject areas (traffic control, behavior modelling, SW testing, cybersecurity etc.). There are a lot of real-world tasks when a single agent have to cope with other agents (to coordinate or compete) and multi-agent systems (MAS) is used for such situations. High-dimensional RL-MAS environment causes "curse of dimension" problem and deep learning helps to solve this problem efficiently. This presentation covers some examples of using RL and DeepRL for multi-agent systems.
Radiologists dedicate more than half of their diagnostic time to in- terpreting computed tomography (CT) scans, with chest and abdominal scans being particularly detailed and time-intensive due to the need to meticulously identify and describe a variety of diseases. Our cutting-edge product simultaneously analyzes 10 different diseases in these scans, in- cluding disorders affecting the lungs, heart, bones, and abdominal regions. In this study, we demonstrate how introducing an AI-assisted study pro- vides a substantial time-saving advantage and lessens the heavy workload currently borne by radiologists. Specifically, it saves up to 20% of the time spent on CT examinations (≈ 2.5 mins on average), and increases the average recall by over 29%, while preserving the same level of positive predictive value.
Automatic humor detection is a highly relevant task for conversational AI. To date, there are several English datasets for this task, but little research on how models trained on them generalize and behave in the wild. To fill this gap, we carefully analyze existing datasets, train RoBERTa-based and Naïve Bayes classifiers on each of them, and test on the rest. Training and testing on the same dataset yields good results, but the transferability of the models varies widely. Models trained on datasets with jokes from different sources show better transferability, while the amount of training data has a smaller impact. The behavior of the models on out-of-domain data is unstable, suggesting that some of the models overfit, while others learn non-specific humor characteristics. An adversarial attack shows that models trained on pun datasets are less robust. We also evaluate the sense of humor of the chatGPT and Flan-UL2 models in a zero-shot scenario. The LLMs demonstrate competitive results on humor datasets and a more stable behavior on out-of-domain data. We believe that the obtained results will facilitate the development of new datasets and evaluation methodologies in the field of computational humor. We've made all the data from the study and the trained models publicly available.
Linguistic and logical text structures are very useful for some applied tasks like dialogue generation, argument mining and fact verification. We will consider several cases of such tasks: multi-party dialogue generation by means of discourse structure and also fact correction based on information retrieval combined with logical reasoning.
Over the past years, foundation models and LLMs have demonstrated enhancements in measurable aspects and the development of new qualitative features, creating a need for their comprehensive evaluation and analysis of the associated risks. To address these issues, we present MERA, a new instruction benchmark for evaluating foundation models oriented toward the Russian language. The benchmark encompasses 21 evaluation tasks for generative models. The talk presents the new evaluation methodology, an open-source code base for the MERA assessment, a leaderboard with a submission system, and the evaluated baselines' results.
Регина Гареева,
AUMI.AI