OpenTalks.AI /
19-20 Февраля 2026
Белград, Сербия

Открытая конференция по ии

Программа
OpenTalks.AI 2026

Предварительная версия от 04.02.2026
Время по Белграду, GMT+1
18:00-21:00
Welcome drinks and networking
Отдельная регистрация, будет объявлена позже.

Вечер накануне конференции - прекрасное время выпить бокальчик вина и встретить знакомые лица в неформальной обстановке!) И конечно познакомиться с новыми людьми!)

Там же вы сможете зарегистрироваться на конференцию и получить бейдж, чтобы избежать очереди утром)

День 1

Четверг, 19 Февраля
09:00 – 10:00
Регистрация и приветственный кофе
10:10 – 10:40
Пленарная сессия 1 - обзоры
Большой конференц-зал
10:00 – 10:10
Открытие конференции и первого дня
Игорь Пивоваров, OpenTalks.AI
Что будет на конференции, основные идеи, цифры, акценты.
10.10 – 10.40
ИИ агенты - главное в 2025 году
Татьяна Шаврина
Meta
В этом докладе представлен краткий обзор последних достижений в области исследований агентов искусственного интеллекта с акцентом на их преобразующий потенциал для ускорения научных открытий. Мы рассмотрим, как агентные каркасы и структуры оркестровки используются в различных научных дисциплинах, выделяя ключевые достижения и новые ориентиры в области автономии агентов.
Вместе с аудиторией мы критически оценим текущую ситуацию, обсудив как технические достижения, так и фундаментальные ограничения больших языковых моделей (LLM) в научном контексте. Это исследование подготовит почву для подробного обсуждения зрелости агентов искусственного интеллекта, их роли в рекурсивном самосовершенствовании и более широких последствий для готовности к УЧИ и автоматизации научных методов.
Цель сессии - способствовать активному диалогу о вызовах и перспективах науки, основанной на искусственном интеллекте, предлагая участникам поразмышлять о том, насколько мы близки к созданию полностью автономных исследовательских центров и какие этапы еще остаются на пути к AGI.
10:40 – 10:55
Перерыв
10:55 – 11:55
Параллельные сессии
Нейроморфные вычисления
Зал С
Большой зал
Зал А
LLM в бизнесе
Александр Светкин, Microsoft
ИИ-агенты
Использование LLM для улучшения обработки инцидентов в Azure​
Подробнее
AlphaEvolve: масштабное алгоритмическое открытие с помощью эволюции под управлением LLM
Александр Новиков
DeepMind (UK) (online)
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Андрей Устюжанин,
Constructor University
Границы, а не агенты. Мультискейловая архитектура для науки, управляемой ИИ
Подробнее
Предраг Раденкович, Codeplain
Scaling integrations at Incode using spec-driven development
Подробнее
Нейросемантическая сеть. Альтернатива LLM на основе импульсной нейронной сети
Андрей Лаврентьев,
Лаборатория Касперского
Подробнее
Олег Выголов,
Лаборатория Касперского
Нейроморфный ИИ: перспективы применения в задачах обработки различных типов данных
Подробнее
Михаил Киселев,
Лаборатория Касперского
Глубокие сверточные импульсные нейронные сети
Подробнее
В докладе представлен AlphaEvolve — кодовый агент, который итеративно супероптимизирует алгоритмы, эволюционируя кодовые базы с помощью эволюционного поиска и автоматической обратной связи. Мы рассмотрим влияние системы на различные области — от критической инфраструктуры, такой как планирование работы дата-центров Google и обучение модели Gemini, до фундаментальных задач математики. В частности, будет обсуждено открытие алгоритма ранга 48 для умножения матриц 4×4, превосходящего базовый алгоритм Штрассена 1969 года, а также результаты по открытым исследовательским задачам в математике.
В этой презентации рассматривается применение больших языковых моделей (БЛМ) для улучшения реагирования на инциденты в Microsoft Azure, одной из крупнейших в мире облачных платформ. В ней анализируются несколько инициатив, основанных на искусственном интеллекте, включая сортировку инцидентов и автоматизированное устранение последствий. Хотя более общие решения, такие как автоматически генерируемые сводки инцидентов, улучшили пользовательский опыт, измеримое сокращение времени на устранение инцидентов было достигнуто в основном за счет узкоспециализированных, ориентированных на конкретные команды решений.
Ключевые выводы и результаты подчеркивают важность контекста и высококачественных данных, а также риски «галлюцинаций» БЛМ. Хотя ориентированный на команду агентный подход продемонстрировал эффективность, успешное внедрение требует продуманной реализации и глубокой интеграции с существующими рабочими процессами.
Современные системы «AI-учёных» в основном сосредоточены на оркестрации инструментов и агентов для автоматизации отдельных этапов научного процесса, однако они регулярно дают сбои при решении реальных исследовательских задач, охватывающих несколько уровней описания — от низкоуровневых симуляций до проектирования экспериментов и стратегического принятия решений. В этом докладе я утверждаю, что ключевое ограничение носит архитектурный, а не алгоритмический характер: наука по своей природе является мультискейловой, тогда как современные ИИ-системы в основном не учитывают масштабы.
Проводя аналогии с физикой и биологией, где такие границы, как доменные стенки или мембраны, обеспечивают согласованное поведение между масштабами, я предлагаю рассматривать явные границы как необходимый элемент эффективной науки, управляемой ИИ. Эти границы должны разделять и одновременно координировать различные режимы рассуждений, ограничения и цели. Вместо наращивания числа агентов или промптов нам необходимо проектировать архитектуры, которые стабилизируют взаимодействие между локальной оптимизацией и глобальными научными целями.
В докладе будет представлена мультискейловая архитектура для науки, управляемой ИИ, показаны её следствия на примерах из исследований в области материаловедения и квантовой науки, а также обсуждено, как системы, осознающие границы, могут обеспечить более надёжное, интерпретируемое и масштабируемое научное открытие.
В этом докладе рассказывается о том, как Incode, платформа для проверки личности стоимостью 3 миллиарда долларов, трансформировала разработку интеграций, используя подход, основанный на спецификациях (spec-driven development), в то время как прямая генерация кода на основе LLM с помощью таких инструментов, как Claude Code, не смогла масштабироваться.

Первые попытки автоматизации привели к созданию кода, который расходился с требованиями, содержал ошибки и увеличивал нагрузку на проверку. Агентный подход, не имеющий строгих указаний, приводил к ненадежным результатам. Прорыв произошел благодаря разработке, основанной на спецификациях, где структурированные спецификации становятся единственным источником истины.
Используя ***plain, язык разработки, основанной на спецификациях, Incode напрямую преобразует требования в работающее программное обеспечение, повторно использует модульные компоненты в разных интеграциях и автоматически обнаруживает неоднозначности и конфликты до генерации кода. Полностью автоматизированный конвейер рендеринга Codeplain — объединяющий структурированные спецификации, агент конечного автомата, LLM и непрерывную проверку тестов — рендерит, тестирует и проверяет каждое функциональное требование независимо и в целом. Это обеспечивает безопасность регрессионного анализа, точное исправление ошибок и гибкую итерацию.

Благодаря подходу к разработке, основанному на спецификациях, было полностью разработано двадцать интеграций, и теперь одна из них выпускается за один день вместо двух недель, без ручной проверки кода.
Кьяра Страмаччони, Karimi
ИИ — ваш новый коллега: ориентированная на задачи система рекомендаций для интерпретируемого расширения возможностей в работе.
Подробнее
Мы представляем систему рекомендаций, ориентированную на задачи, разработанную для Karimi, приложения TalentTech, предназначенного для долгосрочного использования в качестве помощника в карьере. Представленное нами приложение помогает профессионалам находить лучшие инструменты, созданные на основе ИИ, для повышения эффективности их повседневной работы.
Система моделирует профессиональную работу как семантическое пространство задач, встроенных с использованием языковых моделей, настроенных на основе инструкций. Представления задач обогащаются структурированными метаданными и явными связями между задачами и инструментами, что позволяет осуществлять гибридный поиск, сочетающий векторное сходство с фильтрацией метаданных. Такой подход поддерживает интерпретируемые, контекстно-зависимые рекомендации и непрерывную навигацию по работе, навыкам и поддержке ИИ в реальных профессиональных условиях.
Доклад посвящен перспективам практического применения нейроморфного ИИ. Представлены общие сведения об инструментарии разработки, включающем нейроморфную ML-платформу и специализированный ИИ-процессор с архитектурой, отличной от фон-неймановской. На примере демонстрационных стендов показаны возможные подходы к созданию и получаемые характеристики нейроморфных решений в задачах компьютерного зрения, обработки биофизических сигналов, генерации текста.

Презентация посвящена реализации сверточных сетей и глубокому обучению в нейронных сетях с шипами (SNN). Обсуждается алгоритм построения сверточных слоев с шипами. Описана сетевая архитектура для классификации небольших изображений с использованием сверточной SNN и классификационной сети CoLaNET, а также методология создания многослойных сверточных SNN для обработки больших изображений. Анализируется возможность объединения сверточных архитектур SNN со структурами, реализующими неконтролируемое и полууправляемое обучение, а также сверточными аналогами механизма внимания. Отличительной особенностью данного исследования является его акцент на эффективную реализацию на современных и перспективных нейрочипах, таких как Алтай-3.
Могут ли нейроморфные подходы быть эффективными при работе с большими последовательными данными, как это делает LLM, и сделать их более энергоэффективными для вывода и обучения?
Нейросемантическая сеть - NSN - представляет собой особый вид импульсной сети, которая в дополнение к суммированию времени в нейронах также использует чувствительность к последовательности входных сигналов. Такая сеть представляет входную последовательность в виде ряда векторов с относительно небольшой, но различной длиной – от 1 до 8 элементов. На терминальном уровне NSN такие векторы могут рассматриваться как альтернатива многомерным векторам встраивания токенов и позиционного кодирования (PE). На каждом уровне NSN входные данные свертываются во времени с коэффициентом от 2 до 8. Таким образом, каждый следующий слой имеет меньшую длину и требует меньше ресурсов для вычислений. Отличительной особенностью NSN является нейрогенез – сеть создает новые и уничтожает неиспользуемые нейроны "на лету". Это позволяет сети обучаться и делать выводы в потоке. А основным обучающим принципом NSN является иерархический MDL (минимальная длина описания) для представления данных в терминах нейронов на каждом уровне.
В презентации мы покажем, как этот подход снижает сложность, сколько нейроморфных ресурсов он требует и какие прикладные задачи уже выполняются в NSN.
11:55– 12:15
Перерыв, кофе
12:15 – 13:15
Параллельные сессии
Исследования в LLM
Зал С
Большой зал
Зал А
ML в бизнесе
Дмитрий Пшиченко,
NIS a.d.
ИИ-агенты
Как агенты искусственного интеллекта заменяют ручной анализ в нефтегазовой отрасли
Подробнее
Кооперативные ИИ-агенты в науке и цифровой двойник человеческих взаимодействий
Илья Макаров,
AIRI
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Дмитрий Юновидов, LogicYield LLC
Edge AI Symphony: гетерогенная экосистема для прогнозирующего промышленного управления и организации безопасности в химическом производстве.
Подробнее
Обзор: предварительное обучение LLM в 2025 году
Владислав Савинов,
Яндекс
Подробнее
Александр Котов,
Университет Уэйна
LLMs in Mental Health Care - обзор последних исследований, ключевые проблемы и перспективы
Подробнее
Растущая сложность современных научных проблем и экспоненциальный рост объёма данных создают фундаментальные проблемы для традиционных методов исследования. Ограничения человеческого познания и временные ограничения становятся существенным фактором, замедляющим темпы открытий. Перспективным подходом к преодолению этих барьеров является разработка кооперативных агентов искусственного интеллекта. Такие системы предназначены для автономного проведения исследований, что позволяет проводить более глубокий и систематический анализ сложных предметных областей.

В нашем докладе мы расскажем о наших достижениях в области агентов искусственного интеллекта для науки, об участии в конкурсе Google DeepMind Concordia NeurIPS'24 по кооперативным агентам, где мы вошли в топ-5, и о нашей статье на NeurIPS'24, посвященной эмоциональным предубеждениям у агентов LLM, влияющим на рациональность принятия решений.
В этом докладе представлен реальный пример внедрения агентов ИИ в нефтедобывающие операции — от мониторинга запасов скважин до поддержки принятия решений на уровне управления производством.
В отличие от традиционных панелей мониторинга BI или автономных моделей машинного обучения, агенты ИИ выступают в качестве активных участников операционных процессов. Они непрерывно анализируют данные из промышленных и корпоративных систем (SCADA, MES, ERP), выдвигают гипотезы, выявляют аномалии, предлагают сценарии реагирования и взаимодействуют с инженерами и менеджерами на понятном деловом языке.
Доклад охватывает:
архитектуру платформы агентов ИИ для нефтедобычи (уровень данных, модели, оркестрация, участие человека);
практические примеры агентов ИИ, такие как «виртуальный инженер по производству», «агент по контролю простоев» и «агент экономической оптимизации»;
интеграцию агентов ИИ в существующие ИТ и ОТ-системы без замены основных промышленных систем;
измеримые бизнес-результаты, включая сокращение времени простоя, ускорение принятия решений, повышение операционной прозрачности и снижение рабочей нагрузки на ключевых экспертов;

Организационные и культурные аспекты: почему агенты ИИ — это не просто ИТ-инициатива, а признанный сдвиг в операционной и управленческой модели.
Доклад адресован руководителям бизнеса, специалистам по цифровой трансформации и директорам по информационным технологиям и демонстрирует, как агенты ИИ представляют собой следующий эволюционный шаг за пределы платформ данных и прогнозной аналитики в нефтегазовой отрасли.
В сложной сфере производства минеральных удобрений операционная эффективность и безопасность персонала традиционно оставались изолированными понятиями. В данной статье представлен новаторский подход к распределенному периферийному искусственному интеллекту, основанный на рое автономных промышленных устройств, разработанных для преодоления этого разрыва посредством совместного интеллекта и взаимодействия на естественном языке. Мы представляем два специализированных компонента этой экосистемы: устройство DotPulse, новую оптическую периферийную систему для контроля грануляции в реальном времени на высокоскоростных конвейерах, и устройство GuardDetector, промышленную систему «сторожевого контроля», предназначенную для автоматизированного анализа проверок опасных зон и соответствия требованиям к средствам индивидуальной защиты. Для объединения этих разнородных устройств в рой мы описываем высокоуровневый уровень оркестрации, работающий на основе распознавания именованных сущностей и большой языковой модели Qwen2.5-3B-Instruct. Этот уровень анализирует пользовательский ввод и междоменные сигналы (например, тенденции гранулометрии, плотность шлама и журналы безопасности) в действенные прогнозные выводы и интуитивно понятные отчеты, обеспечивая бесперебойную связь между экосистемой ИИ и персоналом предприятия. Между тем, система DotPulse использует собственную методологию сегментации экземпляров, оптимизированную для использования ЦП в реальном времени, с применением комбинированной функции потерь в архитектуре UNet и магистрали MobileNet-v3. С другой стороны, GuardDetector использует облегченную систему обнаружения YOLO v11s для ЦП. Наши экспериментальные результаты показывают, что эти эффективные с точки зрения использования ЦП модели достигают высокой точности (относительная погрешность менее 10%) в жестких промышленных условиях без необходимости в дорогостоящей инфраструктуре GPU или постоянном подключении к облаку. Наконец, мы решаем присущие этическим проблемам промышленного наблюдения проблемы с помощью подхода «конфиденциальность по умолчанию», чтобы обеспечить суверенитет данных и доверие работников.
Алексей Комиссаров, AI Talent Hub
Teaching AI to Teach
Подробнее
Мы провели онлайн-мастер-курс, где Claude выступал в качестве соинструктора по голосовому синтезу — не в качестве демонстрации, а как активный партнер в обучении. За 15 недель мы выяснили, что работает, что не работает и что нас удивило в использовании ИИ в образовании.
Схема была проста: ElevenLabs для синтеза голоса, Claude для рассуждений, лекции транслировались в прямом эфире, и как преподаватели-люди, так и ИИ отвечали студентам в режиме реального времени. Мы сделали весь курс общедоступным — записи, методологию и конфигурацию агента — чтобы другие могли воспроизвести или оценить наш подход.
Ключевым элементом была обратная связь: после каждой лекции Клод анализировал, что работало, а что нет, а затем обновлял свой собственный преподавательский стиль для следующего занятия. ИИ записывал заметки о темпе, моделях вовлеченности студентов, темах, которые нуждались в большем количестве примеров. К середине семестра разница стала измеримой — меньше монологов, более качественная обработка вопросов, более естественное чередование реплик. Это была не тонкая настройка в смысле машинного обучения; это было проектирование контекста, где ИИ развивал свои собственные инструкции посредством рефлексии. Курс обучал «программированию через специфику»: программированию на основе спецификаций, а не синтаксиса, где тесты определяют поведение, а код становится одноразовым. Но настоящим экспериментом стал сам формат обучения. На шестой неделе мы проверили, сможет ли Claude самостоятельно провести лекцию. Он справился — 42 минуты индивидуального обучения, включая вопросы и ответы, а также импровизацию. Это не было запланировано как промежуточный этап; это возникло естественным образом в результате нескольких недель совместного обучения и самокоррекции.
Что сработало хорошо: асинхронные проверки домашних заданий, где каждый студент проводил 15-20 минут в неделю в голосовом диалоге с Claude , получая персонализированную обратную связь. Это гарантировало каждому студенту внимание преподавателя — то, что невозможно масштабировать, работая только с людьми. Формат экзамена — создание производственных приложений за 3-5 часов с использованием агентов ИИ — показал удивительно хорошие результаты: студенты создали приложения, которые были запущены для реальных пользователей.
Что не сработало: склонность Claude к монологам, которые теряют внимание аудитории. Ухудшение контекста на протяжении длительных занятий. Сложность корректного прерывания. Первоначальное восприятие студентами ИИ как оракула, а не как соавтора. Наша собственная неуверенность в том, когда следует вмешиваться, а когда позволить ИИ бороться.
Мы хотим честно поделиться как успехами, так и неудачами. Это один из первых задокументированных случаев устойчивого совместного обучения с ИИ на университетском уровне, и мы поняли, что интересные проблемы не технические — они педагогические и социальные. Как научить студентов спорить с ИИ? Как сохранить человеческое суждение, когда ИИ часто быстрее и красноречивее? Что происходит с ролью преподавателя, когда ИИ может обучать самостоятельно?
Артем Сенцов, ClearPic
Создание трансграничного графа знаний: разрешение сущностей и выявление рисков с помощью ИИ в Центральной Азии
Подробнее
Официальные реестры в Центральной Азии разрознены, непрозрачны и не обладают базовыми возможностями поиска. В ClearPic.ai мы в течение пяти лет собирали и «освобождали» данные из семи юрисдикций, используя алгоритмы машинного обучения для разрешения сущностей и обработки естественного языка для очистки, перевода и связывания миллионов фрагментированных записей в единый граф знаний.

Проблема ИИ и наше решение

Стандартные SQL-запросы с точным совпадением не работают из-за несоответствий в транслитерации и преднамеренных «опечаток», используемых для избежания обнаружения. Я представлю наши алгоритмы обхода с учетом весов ребер, которые выполняют вероятностное сопоставление, позволяя нам выявлять скрытых бенефициаров за пределами границ, где детерминированные методы не работают.

Экономическое и деловое влияние

Заменив ручные запросы графовым интеллектом, мы увеличили скорость рабочих процессов управления рисками как минимум в 50 раз. Задачи, которые раньше требовали недель ручной работы, теперь возвращают результаты за доли секунды, освобождая тысячи часов в год для принятия более важных решений.

Помимо повышения эффективности, система улучшила выявление организаций с высоким риском на 40%, помогая клиентам избежать потенциальных штрафов со стороны регулирующих органов, оцениваемых в сумму более 100 000 долларов США за каждый случай. На практике это обеспечивает уровень трансграничной прозрачности и визуализации рисков, недостижимый с помощью каких-либо официальных инструментов на сегодняшний день.
Мы провели онлайн-мастер-курс, где Claude выступал в качестве соинструктора по голосовому синтезу — не в качестве демонстрации, а как активный партнер в обучении. За 15 недель мы выяснили, что работает, что не работает и что нас удивило в использовании ИИ в образовании.
Схема была проста: ElevenLabs для синтеза голоса, Claude для рассуждений, лекции транслировались в прямом эфире, и как преподаватели-люди, так и ИИ отвечали студентам в режиме реального времени. Мы сделали весь курс общедоступным — записи, методологию и конфигурацию агента — чтобы другие могли воспроизвести или оценить наш подход.
Ключевым элементом была обратная связь: после каждой лекции Клод анализировал, что работало, а что нет, а затем обновлял свой собственный преподавательский стиль для следующего занятия. ИИ записывал заметки о темпе, моделях вовлеченности студентов, темах, которые нуждались в большем количестве примеров. К середине семестра разница стала измеримой — меньше монологов, более качественная обработка вопросов, более естественное чередование реплик. Это была не тонкая настройка в смысле машинного обучения; это было проектирование контекста, где ИИ развивал свои собственные инструкции посредством рефлексии. Курс обучал «программированию через специфику»: программированию на основе спецификаций, а не синтаксиса, где тесты определяют поведение, а код становится одноразовым. Но настоящим экспериментом стал сам формат обучения. На шестой неделе мы проверили, сможет ли Claude самостоятельно провести лекцию. Он справился — 42 минуты индивидуального обучения, включая вопросы и ответы, а также импровизацию. Это не было запланировано как промежуточный этап; это возникло естественным образом в результате нескольких недель совместного обучения и самокоррекции.
Что сработало хорошо: асинхронные проверки домашних заданий, где каждый студент проводил 15-20 минут в неделю в голосовом диалоге с Claude , получая персонализированную обратную связь. Это гарантировало каждому студенту внимание преподавателя — то, что невозможно масштабировать, работая только с людьми. Формат экзамена — создание производственных приложений за 3-5 часов с использованием агентов ИИ — показал удивительно хорошие результаты: студенты создали приложения, которые были запущены для реальных пользователей.
Что не сработало: склонность Claude к монологам, которые теряют внимание аудитории. Ухудшение контекста на протяжении длительных занятий. Сложность корректного прерывания. Первоначальное восприятие студентами ИИ как оракула, а не как соавтора. Наша собственная неуверенность в том, когда следует вмешиваться, а когда позволить ИИ бороться.
Мы хотим честно поделиться как успехами, так и неудачами. Это один из первых задокументированных случаев устойчивого совместного обучения с ИИ на университетском уровне, и мы поняли, что интересные проблемы не технические — они педагогические и социальные. Как научить студентов спорить с ИИ? Как сохранить человеческое суждение, когда ИИ часто быстрее и красноречивее? Что происходит с ролью преподавателя, когда ИИ может обучать самостоятельно?
За последний год мы стали свидетелями множества релизов моделей с открытым исходным кодом: DeepSeek V3, Kimi K2, Qwen3-Next и другие. Эти модели теперь конкурентоспособны с GPT-5 и Claude на многих бенчмарках, а команды разработчиков открыто делятся своими методами. В статьях описываются несколько прорывов, которые меняют наше представление о предварительном обучении.

В этом докладе Владислав расскажет об основных идеях, появившихся в 2025 году: обучение FP8 в масштабе 600 миллиардов параметров, новые оптимизаторы, такие как Muon, которые наконец-то появились, чтобы бросить вызов AdamW, и другие достижения в повышении эффективности обучения и архитектуре MoE.
Состязательные мультиагентные пайплайны для принятия решений с ИИ
Аркадий Сандлер, True Click Technologies
Даниэль Жолковский, myCouncil
Подробнее
В докладе представлен состязательный мультиагентный фреймворк для решения сложных бизнес-задач, в которых одиночные модели ИИ демонстрируют нестабильность, переуверенность и чувствительность к формулировке запроса. Подход основан на архитектуре взаимодействия нескольких независимых агентов, использующих роли, ограничения и эволюционные стратегии уточнения аргументов для генерации альтернативных позиций. Рассматривается полный пайплайн системы: инициализация ролей, параллельная генерация позиций, механизмы peer review и критики через schema-guided reasoning, итеративное уточнение аргументов и финальная агрегация результатов. Отдельное внимание уделяется адаптивному управлению вычислительным бюджетом, предотвращению коллапса мнений, а также извлечению воспроизводимого консенсуса на основе структурированных предпочтений. Фреймворк реализует stateful by design multi-agent архитектуру: агент-модератор решает эти задачи, оркестрируя раунды и управляя бюджетом без вмешательства в содержание позиций, а агенты-дебатеры сохраняют контекст между раундами и могут использовать внешние инструменты для обоснования аргументов. Это отличает подход от stateless-субагентов в существующих SDK. Показано, как такие архитектуры могут применяться для поддержки стратегических, инвестиционных и управленческих решений.
13:15– 13:30
Перерыв
13:30 – 14:00
Параллельные сессии
Рекомендательные системы
Зал С
Большой зал
Зал А
СV Разработка
Евгений Никитин, Celsus AI
GEN AI для бизнеса
Как находить всё? Скейлимся от 1 до 100 болезней
Подробнее
Создание творческой ИИ платформы
Анна-Вероника Дорогуш,
Recraft
Подробнее
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Последовательные рекомендации: Преодоление разрыва между теорией и практикой
Алексей Васильев,
Sber AI Lab
Подробнее
Никита Северин,
Независимый Исследователь
Передача знаний от предварительно обученных моделей LLM к рекомендательным моделям
Подробнее
Генеративный ИИ уже меняет подход дизайнеров к работе — ускоряя генерацию идей и открывая путь к творчеству с меньшими ограничениями. Однако современные инструменты по-прежнему охватывают лишь часть творческого процесса. В этом докладе мы рассмотрим, как появляются новые рабочие процессы в дизайне, что ИИ уже делает хорошо, и в чем он все еще отстает от потребностей творческих специалистов.

В Recraft мы сосредоточены на создании моделей и других технологий, которые дают творческим специалистам полный контроль над своим видением. Достижение этой цели требует решения ряда сложных технологических задач, которые мы также обсудим в ходе этого доклада.
Традиционно ML-модели в рентгенологии обучаются с помощью supervised-подхода - размечаем конкретные патологии и тренируем модели их находить. Но такой подход существенно ограничивает внедрение и применение ИИ-систем - например, только на компьютерной томографии грудной клетки можно найти более 50 признаков различных патологий. В этом докладе я раскажу про разные способы решения этой проблемы - от постепенно добавления новых классов до подходов, которые вообще не требуют обучения на конкретные патологии. И заодно поделюсь, какие подходы мы реально используем, а какие остались на уровне экспериментов
Момир Адземович,
Белградский университет
Многообъектное отслеживание нелинейного движения на основе глубокого обучения
Подробнее
Отслеживание нескольких объектов - фундаментальная задача для понимания видео.
Хотя она в основном решается для простого движения, многие реальные
сценарии, такие как автономное вождение, спорт и танцы, связаны
со сложными и нерегулярными движениями. Большинство существующих
систем отслеживания по-прежнему основаны на простых моделях линейного перемещения и разработанных вручную правилах,
специфичных для конкретной предметной области, которые не подходят для таких сценариев.
Следовательно, необходимы более совершенные методы отслеживания объектов.

Мы представляем ряд улучшений, которые устраняют эти недостатки. В
частности, мы представляем управляемые данными модели движения, которые изучают объект
динамика напрямую зависит от данных, что позволяет более точно прогнозировать движение
в различных моделях и повышает устойчивость к
обнаружению объектов с помехами в видеокадрах. Эти модели неизменно превосходят
классические модели движения в наборах данных со сложным движением, а также
снижают зависимость от выбора дизайна, специфичного для конкретной предметной области.

Основываясь на моделировании изученного движения, сопоставление объектов между кадрами
затем рассматривается как задача контролируемого прогнозирования: принятия решения о том, является ли
новое обнаружение продолжением существующей траектории. Вместо
используя фиксированные правила, система учится на основе данных сопоставлять новые
обнаружения с существующими траекториями, используя простую геометрическую информацию
(например, ограничивающие рамки) и, при необходимости, признаки внешнего вида объекта. В
наборах данных с нелинейным движением эта приобретенная связь превосходит
эвристические методы. В совокупности эти улучшения показывают, что
замена компонентов, спроектированных вручную, на альтернативные, полученные в результате обучения, приводит
к созданию более надежных и адаптируемых систем отслеживания нескольких объектов.
Первые попытки автоматизации привели к созданию кода, который противоречил требованиям, содержал ошибки и увеличивал нагрузку на проверку. Агентный подход, в котором отсутствовали строгие рекомендации, приводил к ненадежным результатам. Прорыв произошел благодаря разработке на основе спецификаций, когда структурированные спецификации стали единственным источником информации.
Используя ***plain, язык разработки, основанный на спецификациях, Incode напрямую преобразует требования в рабочее программное обеспечение, повторно использует модульные компоненты в различных интеграциях и автоматически обнаруживает неясности и конфликты перед генерацией кода. Полностью автоматизированный конвейер рендеринга Codeplain, объединяющий структурированные спецификации, агент конечного автомата, LLM и непрерывную проверку тестов, позволяет выполнять рендеринг, тестирование и валидацию каждого функционального требования независимо и в целом. Это обеспечивает безопасность регрессионного анализа, точное исправление ошибок и гибкую итерацию.

Благодаря подходу к разработке, основанному на спецификациях, было полностью разработано двадцать интеграций, и теперь одна из них выпущена за один день вместо двух недель, без ручного анализа кода.
В последнее время большие языковые модели (LLM) стали мощным инструментом для обогащения рекомендательных систем семантическими и логическими возможностями. Однако многие существующие подходы сопряжены с высокими затратами на вывод, требуют архитектурных модификаций или тонкой настройки LLM, что ограничивает их практическое применение в крупномасштабных реальных проектах.
В этом докладе мы представим обзор того, как LLM были интегрированы в рекомендательные системы, и представим наш подход к эффективному извлечению знаний из предварительно обученных LLM, основанный на исследовании, опубликованном на ICDM (демонстрация) и принятом к публикации на ECIR 2026. Основная идея заключается в извлечении текстовых профилей предпочтений пользователей с помощью LLM и согласовании внутренних представлений рекомендательных моделей с этими профилями посредством вспомогательных целей реконструкции. Это позволяет эффективно передавать знания без изменения архитектуры модели и без необходимости вывода LLM во время обслуживания, что имеет решающее значение для реальных сценариев.
Доклад предназначен для исследователей в области ИИ и инженеров машинного обучения. Предварительные знания о рекомендательных системах не требуются, все необходимые предварительные сведения будут предоставлены.
Последовательные рекомендательные системы (ПРС) стали критически важными для моделирования поведения пользователей во времени и прогнозирования следующего товара. Однако оценка таких систем остается сложной задачей, требующей внимания к множеству аспектов: правильным стратегиям разделения данных, обработке товаров с «холодным стартом» и тщательной характеристике набора данных.

В этом докладе рассматриваются три фундаментальных столпа строгой оценки ПРС. Во-первых, мы изучаем стратегии разделения данных, специально разработанные для последовательных рекомендаций, сравнивая глобальное временное разделение с широко используемыми подходами «исключения одного элемента» и их влияние на ранжирование моделей. Во-вторых, мы представляем новые методы решения проблемы «холодного старта» товара посредством контентно-ориентированного встраивания, инициализации с ограниченными обучаемыми дельтами, демонстрируя последовательные улучшения на различных наборах данных и в различных модальностях. Наконец, мы анализируем последовательные закономерности,
присущие эталонным наборам данных, предлагая количественные методы для оценки
силы последовательной структуры и различения закономерностей, основанных на новизне, и закономерностей, чувствительных к порядку.

Наши всесторонние эмпирические результаты показывают, что правильная методология оценки
значительно влияет на выводы о производительности модели, что имеет значение как для академических исследований, так и для промышленного внедрения последовательных рекомендательных систем. Мы
предоставляем практические рекомендации по выбору наборов данных, протоколам оценки и
стратегиям смягчения последствий холодного старта для повышения воспроизводимости и актуальности в реальном мире
в исследованиях SRS.
14:00 – 15:00
Обед
15:00 – 15:30
Пленарная сессия 2 - обзоры
Большой конференц-зал
15.00 – 15.30
Машинное обучение в высокочастотной торговле: победа на сверхконкурентном рынке
Анатолий Каламбет,
Spectral
15:30 – 15:45
Перерыв
15:45 – 16:45
Параллельные сессии
Оптимизация вычислений
Зал С
Большой зал
Зал А
CV в бизнесе
Александр Рассадин,
Северсталь
Обзоры
Компьютерное зрение в задачах контроля работы рудоспуска
Подробнее
Топовые вычислительные системы для суперкомпьютинга и ИИ
Валерий Егоршев, Когнитар
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Михаил Красильников,
Bia-technologies
Одна видеокарта, сто глаз: многокамерная аналитика в реальном времени для обнаружения сброса грузов на периферии сети.
Подробнее
Легковесные преобразования данных для эффективного сжатия активаций и градиентов при обучениии больших языковых моделей
Алексей Кузнецов,
Huawei
Александр Демидовский, Huawei, НИУ ВШЭ
Василиса Блюдова,
Huawei
Подробнее
В нашей дискуссии мы пройдем сверху вниз по трем этажам храма промышленных вычислений. Сравним суперкомпьютеры из списка ТОП-500 с планом и прогрессом строительства ИИ-дата-центров в мире, обсудим производительность в гигаваттах и парадокс Джевонса. Этажом ниже посмотрим аппаратную магию - вычислительную начинку ИИ-дата-центров. Внизу увидим создание источников магии - фаундри-строительство в Западном полушарии.
Добыча руды – отправная точка металлургической промышленности. Правильная организация данного процесса напрямую влияет на качество будущих металлических изделий. Это сложный технологический процесс, происходящий глубоко под землей и сильно зависимый от человеческого контроля. Основной задачей Северсталь Диджитал является полная цифровизация производства и в данном докладе мы представляем решение для интеллектуального мониторинга рудоспусков. Такая технология обеспечивает более автоматизированный контроль над добычей, предотвращает простои производства и повышает выходное качество руды. Разработанная система доказала свою экономическую эффективность и в настоящее время используется на предприятиях Северстали.
В этом докладе представлена ​​комплексная система для анализа инцидентов в реальном времени с использованием нескольких камер, работающая в условиях жестких ограничений по задержке и ресурсам, характерных для промышленных периферийных развертываний. Ключевой особенностью системы является ее способность одновременно обрабатывать 100 потоков видео с камер в режиме реального времени на одном графическом процессоре A100-80GB и обнаруживать конкретный инцидент: выпадение груза рабочими или погрузчиками во время погрузки/разгрузки. Система непрерывно сканирует видеопоток, находит 40-кадровый сегмент, содержащий инцидент падения груза, передает его оператору для проверки и записывает в специальный отчет для статистического анализа и последующего принятия решений.

Сначала мы опишем практические проблемы, возникающие при обработке и анализе таких потоков:

A) Поток независимых каналов камер, которые необходимо синхронизировать в реальном времени с учетом пропускной способности сети;

B) Ограничения памяти графического процессора;

C) Обсуждение разреженных, нестационарных и смещенных данных, которые исключают возможность использования известных метрик на начальном этапе проекта;

D) Явления дрейфа камеры, требующие вспомогательных нейронных сетей для перенастройки датчиков;

E) Проблема определения строгой границы между «хорошим» и «плохим» качеством видеокадров;

F) Модель взаимодействия человека с обратной связью, работающая со скоростью менее секунды, с подробным описанием каркасов пользовательского интерфейса и конвейера обратной связи.

Во-вторых, мы предлагаем нейронный конвейер, который разделяет входящие кадры, классифицирует их по наличию действий, извлекает области интереса на уровне тайлов и применяет нейронную сеть с разделением каналов в качестве альтернативы 3D-сверткам для окончательной классификации тайлов, обеспечивая сквозную задержку менее 200 мс на экземпляре 10G MIG на одном графическом процессоре A100-80G.

В-третьих, мы подробно описываем рабочий процесс обработки данных: обучение сегментатора на полных кадрах, маркировка объектов на уровне тайлов с помощью пользовательского веб-инструмента и замыкание цикла активного обучения в замкнутом корпоративном контуре.

Наконец, мы определяем и непрерывно отслеживаем как бизнес-метрики (регрессия инцидента к ущербу, стоимость ложноотрицательных результатов, NPS оператора), так и технические метрики (например, процент выпадения кадров), одновременно отслеживая дрейф модели.

Доклад будет интересен как инженерам компьютерного зрения, так и представителям бизнеса, желающим доказать экономическую эффективность такой системы.
Егор Ершов,
МФТИ
Поиск серединного пути между промышленной автоматизацией и робототехникой для эффективного решения бизнес-задач
Подробнее
Сейчас очень активно развивается передовая робототехника. СМИ освещают как: антропоморфные роботы демонстрируют первые результаты на заводах больших корпораций, VLA-модели встраиваются в индустриальные процессы, популяризируется бизнес-модель RaaS и так далее. При этом, если приехать почти на любой завод любой промышленности в РФ и не только, шанс встретить VLA-агента такой же как и шанс встретит динозавра. Реалной индустрии по-прежнему важна надежность и экономическая эффективность, которой не блещут передовые ИИ-решения. Значит ли это, что внедрение ИИ в индустрию и промышленность сейчас невозможно? Нет, абсолютно. Я расскажу о конкретных кейсах интеллектуальной автоматизации различных бизнес-процессов, которые очень востребованы на рынке, расскажу про устройство технологии, её экономическую эффективность и постараюсь убедить аудиторию, что это те решения, которыми нужно заниматься здесь и сейчас.
Павел Кузнецов,
Контур
Внедрение системы детекции дипфейков в ВКС-систему: пример Kontur.Talk
Подробнее
Современные видеоконференции все чаще используются в ситуациях, требующих высокого уровня доверия, таких как финансовые услуги, ставки, СМИ, управление персоналом, связи с государственными органами и образование, где обсуждается конфиденциальная личная или деловая информация.

В то же время, инструменты для создания дипфейков в реальном времени позволили имитировать собеседника во время видеозвонка, используя лишь обычный игровой графический процессор и виртуальную камеру.

В этом докладе мы представим систему обнаружения дипфейков, развернутую на платформе видеоконференций Kontur.Talk и используемую в качестве «второго мнения» для операторов. Система анализирует видео и предоставляет операторам автоматическую оценку подлинности, снижая как риск мошенничества, так и когнитивную нагрузку на сотрудников.

Мы опишем, как мы создали наш детектор дипфейков, как разработали эталонный тест для оценки в реальных условиях, отражающий методы замены лиц в реальном времени и артефакты видеозвонков, и как интегрировали модель в масштабируемый конвейер. Мы также обсудим ключевые проблемы, включая изменение предметной области и быструю эволюцию генераторов дипфейков.

По результатам наших внутренних тестов, наш детектор превосходит коммерческое решение стороннего производителя, оставаясь при этом достаточно быстрым для использования в производственных условиях. Помимо качества обнаружения, система обеспечивает значительную коммерческую ценность: в одном из реальных развертываний среднее время проверки звонка сократилось примерно с шести минут до двух, что соответствует рабочей нагрузке примерно пяти штатных операторов при текущих объемах.

Этот пример демонстрирует, как обнаружение дипфейков может быть успешно внедрено в реальные системы видеоконференцсвязи не только в качестве функции безопасности, но и как инструмент повышения операционной эффективности в условиях высокого уровня доверия при онлайн-взаимодействиях.
Денис Афанасьев, CrossOverMarkets
Инжиниринг криптовалютной FX ECN с наносекундной задержкой: данные в реальном времени, латентность и интеллектуальные системы
Подробнее
Построение ECN-платформы для высокочастотной крипто-FX торговли связано с экстремальными инженерными требованиями. В этом докладе я разберу архитектуру ECN продакшн-уровня, спроектированной для ультранизкой задержки, работающей с точностью до наносекунд и обрабатывающей в реальном времени огромные потоки рыночных данных и ордер-флоу.
Мы рассмотрим ключевые инженерные вызовы, стоящие за матчинг-движками, пайплайнами рыночных данных и системами риск-контроля при постоянной нагрузке: детерминированную латентность, обработку всплесков трафика, синхронизацию компонентов и наблюдаемость системы в масштабе. Я поделюсь практическими подходами к работе с высокообъемными торговыми данными, проектированию real-time аналитических пайплайнов и обеспечению согласованности между рыночными данными, исполнением ордеров и посттрейдинговой отчетностью.
Отдельная часть доклада посвящена тому, где глубокая аналитика данных и ИИ действительно оправданы в подобных системах: от обнаружения аномалий и адаптивного троттлинга до анализа ликвидности, моделирования поведения маркет-мейкеров и интеллектуальных алертов. Также будут рассмотрены инфраструктурные решения — обмен сообщениями, хранение данных, мониторинг и стратегии деплоя, — позволяющие системе оставаться предсказуемой, отлаживаемой и эволюционируемой несмотря на экстремальные требования к производительности.
Доклад основан на реальном продакшн-опыте и будет интересен инженерам, работающим с низколатентными системами, обработкой данных в реальном времени и на стыке высокопроизводительной торговой инфраструктуры с современными data- и AI-технологиями.
Большие языковые модели (LLM) достигли значительных успехов в области обработки естественного языка. Для обучения LLM современного масштаба применяются различные схемы распределенного обучения, такие как тензорный параллелизм. Однако они по своей сути влекут за собой дополнительные затраты на коммуникацию, которые занимают до 40 % общего времени обучения. Для снижения затрат на коммуникации, которые обычно представляют собой обмен активациями и градиентами между вычислительными узлами, можно применять сжатие градиентов и активаций с потерями или без потерь. Методы сжатия с потерями, такие как квантование или спарсификация, приводят к дополнительному снижению качества. В то же время методы сжатия без потерь позволяют сократить коммуникацию и не влияют на качество независимо от количества коммуникационных действий. В данной статье представлен новый метод сжатия на битовом уровне BitSniper, который позволяет достичь до 18% улучшения сжатия активаций и градиентов во время обучения Llama-3-8B по сравнению с рядом сильных бейзлайнов, таких как NetZIP, Bit-slice и т. д.
Георгий Кекелидзе,
Innovation Energy
Модератор
16:45 – 17:00
Перерыв, кофе
17:00 – 18:00
Параллельные сессии
LLM & Graph & RAG
Зал С
Большой зал
Зал А
Человек и ИИ - какое будущее нас ждет?
Секция будет объявлена позже
Будущее, основанное на искусственном интеллекте: с человеком или без него.
Андрей Вересов,
Сбер
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Юрий Визильтер,
МФТИ
Искусственный интеллект и сценарии будущего
Подробнее
Тщательная оценка стратегий генерации данных для языков с ограниченными ресурсами.
Татьяна Аникина,
DFKI
Подробнее
Сергей Кузнецов, НИУ ВШЭ
Понятная классификация документов с помощью Concept Whitening и Stable Graph Patterns
Подробнее
Мария Годунова,
НИУ ВШЭ
Алина Аванесян,
НИУ ВШЭ
GraphRAG и кириллица: адаптация генерации с дополненной информацией для поиска по графу для русского языка.
Подробнее
Революция генеративного ИИ ставит организации перед фундаментальным стратегическим перекрестком: автоматизировать процессы, исключив участие человека, или расширить человеческие возможности, повысив их эффективность. В этом докладе мы выйдем за рамки шумихи и критически проанализируем эти два расходящихся пути.

Сначала мы рассмотрим убедительные аргументы в пользу полной автоматизации — стремление к беспрецедентной эффективности, масштабируемости и снижению затрат — и рассмотрим часто упускаемые из виду компромиссы: операционную уязвимость, скрытые издержки и человеческие риски, связанные с вытеснением и демотивацией персонала.

Затем мы обоснуем альтернативный, человекоцентричный подход: использование ИИ в качестве «когнитивного экзоскелета» для усиления креативности, принятия решений и стратегического понимания. Этот путь обещает удержание талантов и повышение инновационности, но несет в себе риски чрезмерной зависимости и сложности в поддержании темпов роста знаний.

В основе нашего обсуждения лежит критический синтез. Это не бинарный выбор, а стратегическая задача проектирования. Мы представим практическую модель, которая поможет лидерам определить, где и когда следует автоматизировать, а когда расширять возможности искусственного интеллекта, сбалансировав этические соображения с конкурентной необходимостью. В итоге мы представим видение гибридного будущего, где наиболее успешными будут те организации, которые овладеют искусством стратегической синергии между человеческим и искусственным интеллектом, создавая ценность, превышающую сумму их отдельных составляющих.

Присоединяйтесь к нам для сбалансированного и практического обсуждения формирования будущего на основе ИИ, которое будет одновременно конкурентоспособным и устойчивым с точки зрения человеческого фактора.
Технологии ИИ – это «волшебная палочка», исполняющая желания человека и человечества. Нужно точно и осторожно формулировать свои желания, поскольку они с высокой вероятностью исполнятся. Следует помнить и о непредвиденных последствиях, которые всегда случаются. Насколько мы готовы принять будущее, которое создаем? Насколько мы можем повлиять на результаты применения создаваемых технологий?
Мы предлагаем новую понятную систему классификации документов, которая объединяет концептуальное разделение (CW) с графическими концепциями, которые основаны на стабильных графических шаблонах и извлекаются с помощью методов, основанных на формальном концептуальном анализе (FCA) и структурах шаблонов. Графики документов строятся с использованием графов абстрактного представления значений (AMR), из которых извлекаются графические понятия и выравниваются по осям скрытого пространства графовых нейронных сетей (GNN) с использованием CW. Мы исследуем четыре типа графических концепций на предмет их влияния на согласование концепций: часто используемые подграфы, графические шаблоны, отфильтрованные классы эквивалентности и закрытые подграфы. Предлагается новый механизм фильтрации, основанный на поддержке, а также настраиваемая метрика штрафных санкций для уточнения графических концепций для максимального согласования концепций. Эксперименты с 10 группами новостей и наборами данных BBC Sport показывают, что наши графики документов эффективно отражают как структурную, так и семантическую информацию, тем самым поддерживая эффективность конкурентной классификации в различных архитектурах и конфигурациях моделей GNN. Для набора данных из 10 групп новостей модели GNN, оснащенные модулем CW, показывают среднее увеличение на 0,7599 макроусредненного показателя F1 показателя эффективности согласования концепций (CAP), при среднем снижении всего на 0,0025 макроусредненного показателя F1 для классификации документов. Аналогичным образом, в наборе данных BBC Sport среднее повышение лимита составляет 0,6998 при среднем снижении эффективности классификации документов на 0,0894. Кроме того, анализ важности градиента концепций и тепловые карты сходства концепций дают представление о интерпретируемости и структурной разделимости скрытых представлений GNN, достигаемых с помощью CW.
GraphRetrieval-Augmented Generation (GraphRAG) (Edge et al. [2025]) — это инновационный подход, разработанный Microsoft, который улучшает традиционную генерацию с расширенным поиском (RAG) за счет включения графовых представлений данных. В отличие от наивных моделей RAG, которые полагаются на линейные конвейеры поиска, GraphRAG использует графовые структуры для установления контекстных связей между найденными документами, повышая информативность и связность сгенерированного текста. Этот структурированный механизм поиска значительно превосходит подходы к суммаризации, ориентированные на запросы,
за счет выявления более глубоких семантических зависимостей, что позволяет более точно синтезировать контент.
Хотя GraphRAG продемонстрировал высокую эффективность в англоязычных приложениях, его адаптация к неанглоязычным контекстам, особенно к русскоязычным моделям, остается недостаточно изученной. Кроме того, алгоритм Лейдена (Traag et al. [2019]), важнейший компонент для обнаружения сообществ в GraphRAG, не был оптимизирован для крупномасштабных текстовых графов. В данном исследовании мы сосредоточились на двух взаимосвязанных задачах: (1) адаптации GraphRAG для YandexGPT и других русскоязычных генеративных моделей и (2) оптимизации алгоритма Лейдена для повышения его эффективности
и точности в обнаружении сообществ в текстовых графах. Интегрируя эти достижения, мы стремимся улучшить качество поиска и генерации в русскоязычных задачах обработки естественного языка. Наши экспериментальные оценки на открытых российских наборах данных позволят получить представление о применимости и преимуществах GraphRAG за пределами англоязычных исследований, внеся вклад в более широкую область многоязычной разработки ИИ (Sen et al. [2023]).
Большие языковые модели (БЛМ) все чаще используются для генерации синтетических текстовых данных для обучения более мелких специализированных моделей. Однако сравнение различных стратегий генерации для языковых условий с ограниченными ресурсами отсутствует. Хотя были предложены различные стратегии подсказок — такие как демонстрации, резюме на основе меток и самокоррекция — их сравнительная эффективность остается неясной, особенно для языков с ограниченными ресурсами. В этой статье мы систематически оцениваем производительность этих стратегий генерации и их комбинаций на 11 типологически разнообразных языках, включая несколько языков с крайне ограниченными ресурсами. Используя три задачи обработки естественного языка и четыре БЛМ с открытым исходным кодом, мы оцениваем производительность моделей на сгенерированных данных по сравнению с эталонными данными. Наши результаты показывают, что стратегические комбинации методов генерации — в частности, демонстрации на целевом языке с коррекцией на основе БЛМ — обеспечивают высокую производительность, сокращая разрыв с реальными данными до 5% в некоторых условиях. Мы также обнаружили, что интеллектуальные методы подсказок могут уменьшить преимущество больших БЛМ, подчеркивая эффективность стратегий генерации синтетических данных в условиях ограниченных ресурсов с использованием меньших моделей.
19:00 – 23:00
Закрытый ужин по приглашениям

День 2

Пятница, 20 Февраля
09:00 – 10:00
Регистрация
10:00 – 10:10
Открытие дня
Игорь Пивоваров, OpenTalks.AI
10:10 – 10:40
Пленарная сессия 3 - обзоры
Большой конференц-зал
10:10 – 10:40
AI Safety в 2026: Краткий Обзор
Сергей Николенко,
ПОМИ РАН, Synthesis AI
Как корректно сформулировать, чего именно мы хотим от искусственного интеллекта? Как обеспечить, чтобы будущие ИИ-агенты не пытались самостоятельно устранить человечество (что, строго говоря, было бы логичным шагом с их точки зрения, учитывая, что именно люди представляют основную угрозу их существованию), и не помогали другим людям делать это более эффективно (к сожалению, сценарий вовсе не гипотетический)? Как вообще сохранить возможность отключить ИИ-агента?
Ответы на эти вопросы далеко не очевидны - именно они лежат в основе направления AI safety. В этом докладе мы обсудим, где мы находимся сегодня на этом пути, успевают ли исследования в области безопасности за стремительно растущими возможностями ИИ-моделей (спойлер: нет), и что мы можем и должны с этим делать.
10:40 – 10:55
Перерыв
10:55 – 11:55
Параллельные сессии
Предиктивная аналитика
Зал С
Большой зал
Зал А
LLM в бизнесе
Анастасия Рысьмятова,
Авито
ИИ-агенты
Avibe. Как и зачем делали LLM в Авито
Подробнее
ИИ агенты для Фармацевтической промышленности

Роман Доронин,
Optic
Подробнее
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Евгений Григорьев,
T1.Artificial Intelligence
Интеллектуальный анализ данных на основе больших языковых моделей
Подробнее
Прогнозирование грозовых явлений в режиме реального времени: прогнозирование молний с 10-минутной временной дискретизацией с использованием метеорологических радаров и геостационарных спутников.
Пётр Вытовтов,
Яндекс Погода
Подробнее
Андрей Савченко,
Sber AI Lab
Прогнозирование многовариантных временных рядов и последовательностей событий
Подробнее
Мы в Авито применяем LLM во многих задачах. Например:
1) Суммаризация отзывов
2) Подсказки в мессенджере
3) Авто ответы в мессенджере
4) Автоматизация поддержки
5) Ассистенты

Во многих задачах мы используем небольшие размера около 8 миллиардов параметров, которые дообучаем под конкретную задачу.

Некоторые сервисы на базе LLM имеют высокую нагрузку и в инференсе живут на большом числе GPU. Поэтому мы пытаемся ускорить инференс моделей, а так же хотим чтобы модели на наших задачах показывали максимально возможное качество.

Один из методов ускорения инференса и улучшения качества моделей на нашем домене это адаптация токенизатора LLM с последующим alignment этапом

Мы в команде обучили базовую модель для Авито (адаптировали Qwen3 8b) И выложили модель в опен сорс

https://huggingface.co/AvitoTech/avibe

Статья про то как учили модель
https://habr.com/ru/companies/avito/articles/956664/

Рассказ будет посвящен тому как мы сделали модель и где её используем в компании.
В этом отчете представлена разработка группы исследований и разработок подразделения анализа и моделирования данных T1: Интеллектуальный анализ данных на основе больших языковых моделей.

Как правило, аналитика включает в себя формулы, сводные таблицы и постоянные запросы, такие как "вывод данных" и "просмотр метрик". Мы предложили другой подход: интеллектуальный источник данных, который автоматически подключается к витринам данных, вычисляет соответствующие показатели, создает таблицы и графики и объясняет результаты понятным для человека языком.

Цель решения — сократить время от вопроса до решения с нескольких дней до нескольких минут и сделать аналитику доступной для всех - как для программистов, так и для тех, кто никогда не писал код. Единый интерфейс, воспроизводимые вычисления, прозрачные методы и возможность немедленно уточнить вопросы в чате.
д-р Салим Аль-Шуайли, Maidaan.ai
Обзор: Трансформация бизнеса с использованием ИИ/машинного обучения на примере национальных моделей обработки больших языков — пример «Mueen» в Омане.
Подробнее
В этом обзорном докладе рассматривается, как технологии искусственного интеллекта и машинного обучения, в частности генеративный ИИ и предметно-ориентированные большие языковые модели (LLM), меняют бизнес и государственные операции. На примере национальной LLM Омана «Mueen» в докладе объясняется, как суверенный ИИ, обученный исключительно на официальных и местных наборах данных, может обеспечить безопасную автоматизацию процессов, ускорить принятие решений и повысить операционную эффективность в различных секторах. Презентация охватывает ключевые бизнес-проблемы, приложения ИИ/машинного обучения, проблемы, возникшие при разработке и внедрении Mueen, измеримые результаты и экономическую эффективность. Участники получат практические знания о том, как специализированные системы ИИ могут безопасно и эффективно применяться в регулируемых отраслях и государственных структурах, а также как влияние модели согласуется с национальными целями цифровой трансформации.
В этом докладе я проанализирую современные методы прогнозирования многомерных временных рядов на перспективу. Я расскажу о регулярных и нерегулярных временных рядах (последовательности событий, например, банковских транзакций). Я также представлю несколько инновационных способов применения больших языковых моделей для анализа последовательности событий. Доклад в основном основан на двух статьях из AAAI'26 (основной раздел): 1) Определение будущего: одновременное прогнозирование последовательности событий с сопоставлением горизонтов (устный доклад) и 2) HN-MVTS: Многомерное прогнозирование временных рядов на основе Гиперсети
Владимир Наумов,
Независимый Исследователь
TennisGPT: Генеративные языковые модели для моделирования спортивных последовательностей
Подробнее
В этом докладе я проанализирую современные методы прогнозирования многомерных временных рядов на перспективу. Я расскажу о регулярных и нерегулярных временных рядах (последовательности событий, например, банковских транзакций). Я также представлю несколько инновационных способов применения больших языковых моделей для анализа последовательности событий. Доклад в основном основан на двух статьях из AAAI'26 (основной раздел): 1) Определение будущего: одновременное прогнозирование последовательности событий с сопоставлением горизонтов (устный доклад) и 2) HN-MVTS: Многомерное прогнозирование временных рядов на основе Гиперсети
Экстремальные погодные явления, такие как сильные дожди, грозы и град, играют огромную роль в различных сферах человеческой жизни: авиации, сельском хозяйстве, повседневной жизни и т. д. Мы решили сосредоточиться на задаче краткосрочного прогнозирования гроз по двум причинам: (1) грозы часто сопровождаются сильными дождями и градом, поэтому они оказывают большое влияние на промышленность и повседневную жизнь, и (2) грозы часто развиваются быстро, поэтому полезно и необходимо прогнозировать их с малой временной дискретизацией, которая в нашем случае составляет 10 минут. Мы разработали модель на основе визуального трансформера, которая использует данные в реальном времени с метеорологических радаров и геостационарных спутников для прогнозирования районов с высокой вероятностью молний, ​​а также для краткосрочного прогнозирования осадков. Полученное качество нашей модели лучше, чем у классических подходов к этой задаче, таких как численное прогнозирование погоды и оптический поток, с точки зрения F1-меры и IoU, а также с точки зрения визуальной оценки. Предложенная модель интегрирована в сервис Yandex Weather в качестве производственной модели.
Предшественники, доверенные лица и прогностические модели для долгосрочных задач
Даниил Анисимов,
Optic
Подробнее
Агенты с искусственным интеллектом демонстрируют выдающиеся успехи в выполнении различных краткосрочных задач и быстро совершенствуются в решении долгосрочных задач, что создает необходимость оценки возможностей ИИ в выполнении опасных задач, требующих высокой автономии. Оценки (evals), включающие длительно выполняемые задачи "реального мира", могут быть лучшими показателями для прогнозирования общей производительности, но их создание, запуск и сравнение с исходными данными для человека обходятся дорого. Кроме того, эти задачи часто зависят от большого, взаимосвязанного набора навыков агентов, что затрудняет прогнозирование развития возможностей. Мы предполагаем, что возможности предшественников, включая "настойчивость", "ловкость" и "адаптивность", являются предпосылками надежной автономной работы в долгосрочных задачах, и разрабатываем простые процедурно сгенерированные "промежуточные" оценки для определения этих предшественников. Затем мы используем производительность агента в наших прокси-оценках для калибровки предварительного метода прогнозирования возможностей для более сложной задачи: SWE-Bench. Наши предварительные результаты показывают, что производительность при определенных прокси-оценках может необычно сильно влиять на производительность при других оценках. Мы обнаружили, что простой показатель адаптивности, основанный на психологии развития, коррелирует с SWE-bench, а три других показателя коррелируют с SWE-bench при r > 0,8. Проверка прокси-сервера, которая занимает всего 10 шагов, сильно коррелирует с производительностью многих других проверок, завершение которых в противном случае занимает гораздо больше времени (100 шагов). Что касается нашей прогностической модели, то наши первоначальные результаты правильно предсказывают оценки агентов на SWE-стенде, но содержат большие погрешности, что позволяет предположить, что, протестировав большее количество моделей на большем количестве синтетических оценок, мы сможем быстро и недорого прогнозировать производительность в важных долгосрочных задачах.
Суперагент на основе ИИ: самоорганизующаяся многоагентная система для решения сложных задач
Андрей Кузьминых,
Andre AI Technologies
Подробнее
В данной статье представлен AI Super Agent — самоорганизующаяся многоагентная система, предназначенная для автономного декомпозирования, планирования и выполнения сложных задач в мультимодальных областях.

В её основе лежит когнитивное ядро ​​— единая архитектура управления, которая интегрирует восприятие, рассуждения, память и управление целями в непрерывный цикл «Планирование–Выполнение–Управление» (PEC). Это ядро ​​динамически координирует работу серверов протокола контекста модели (MCP), поддерживая согласованность между процессами рассуждений, выполнением действий и долговременной памятью.

В структуру входит графовая память (GraphRAG), дополненная алгоритмами глубокого исследования, что позволяет осуществлять контекстный поиск, семантическое рассуждение на основе графов и итеративный синтез знаний. Механизм графов действий представляет и управляет причинно-следственными зависимостями задач, позволяя агентам строить, оценивать и совершенствовать стратегии в реальном времени.

Благодаря этой архитектуре AI Super Agent демонстрирует способность к самоорганизации, созданию специализированных субагентов и адаптивному обучению на основе мультимодальной обратной связи. Экспериментальные оценки в таких областях, как автоматизация бизнес-процессов, финансовая аналитика и исследовательская разведка, показывают существенное улучшение глубины рассуждений, скорости выполнения задач и эффективности координации по сравнению с традиционными многоагентными базовыми моделями.

Помимо технических достижений, AI Super Agent закладывает основу для автономных когнитивных экосистем — систем, способных к совместной эволюции с участием людей, обеспечивая масштабируемое решение проблем, непрерывное открытие и расширение коллективного интеллекта.
11:55 – 12:15
Перерыв, кофе
12:15 – 13:15
Параллельные сессии
Глубокое обучение
Зал С
Большой зал
Зал А
Разработка LLM
Владислав Балаев,
Ланит-технологии
Генеративные модели
Из проектов в продукт: как мы систематизировали работу с LLM
Подробнее
Дистилляция диффузионных генеративных моделей
Евгений Бурнаев,
Сколтех
Подробнее
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Салават Гарифуллин,
ODS
Модератор
Антон Конушин,
МГУ
3D реконструкция в структурированное представление (CAD, BIM)
Подробнее
Дмитрий Васюк,
Microsoft
Вызов инструментов LLM и управление контекстом
Подробнее
Термодинамические аналогии в глубоком обучении
Дмитрий Ветров,
Constructor University, Bremen
Подробнее
Освоить модели diffusion bridge несложно, а сделать их быстрыми и практичными - целое искусство. Модели Diffusion bridge (СУБД) являются многообещающим расширением моделей diffusion для приложений, связанных с преобразованием изображений в изображения. Однако, как и многие современные диффузионные и потоковые модели, СУБД страдают от проблемы медленного вывода. Чтобы решить эту проблему, мы предлагаем новый метод дистилляции, основанный на формулировке обратного мостового согласования, и определяем достижимую цель для ее практического решения. В отличие от ранее разработанных методов дистилляции СУБД, предлагаемый метод позволяет выделять как условные, так и безусловные типы СУБД, выделять модели в одноступенчатом генераторе и использовать только поврежденные изображения для обучения. Мы оцениваем наш подход как для условного, так и для безусловного сопоставления мостов в широком наборе настроек, включая сверхразрешение, восстановление в формате JPEG, преобразование эскиза в изображение и другие задачи, и показываем, что наш метод дистилляции позволяет нам ускорить вывод данных из СУБД с 4 до 100 раз и даже обеспечить лучшее качество. качество генерации выше, чем у используемой модели преподавателя, в зависимости от конкретной настройки.
За пять лет работы в ЛАНИТ мы многократно сталкивались с типичной проектной моделью: пресейл -> пилот -> промышленная эксплуатация. Большинство инициатив не доходили до прода, а те, что доходили — требовали каждый раз новой архитектуры и значительных затрат. С появлением больших языковых моделей (LLM) стало очевидно, что задачи в разных подразделениях сильно похожи по структуре, но на практике компании продолжали запускать «по одному сервису на отдел», что быстро превращалось в дорогую и неуправляемую экосистему.

В докладе я расскажу, как мы пришли к выводу, что ключевым ограничением становится не технология, а скорость и экономическая модель. Коснусь почему в корпоративной реальности важнее быстро проверять гипотезы, чем долго шлифовать качество: данные почти всегда плохие, требования меняются, заказчики могут уйти на любом этапе, а стоимость ошибок высока. В такой среде полезен не отдельный LLM-сервис, а общий подход, который позволяет использовать одни и те же вычислительные ресурсы и инструменты для HR-задач, службы поддержки, юридического отдела, аналитики и других направлений.

Какие компоненты оказались для нас критическими: единый доступ к моделям, мониторинг, трассировка, повторное использование ассистентов, управление затратами и безопасностью, а также возможность быстро запускать прототипы и собирать обратную связь.

Доклад будет полезен руководителям ИИ-направлений, архитекторам и бизнес-лидерам, которые хотят масштабировать ИИ-инициативы, снизить стоимость и повысить скорость вывода решений в производство.
По мере дальнейшего развития больших языковых моделей их эффективность все больше зависит не только от их базовых возможностей. Практическая производительность зависит от того, насколько грамотно они используют внешние инструменты и насколько эффективно управляется их контекст. На этом заседании будут рассмотрены стратегии оптимизации систем больших языковых моделей за счет структурированного вызова инструментов, адаптивной оркестровки и дисциплинированного управления контекстом.

Мы рассмотрим подходы к уменьшению ошибок, повышению точности, улучшению масштабируемости и обеспечению надежных и экономически эффективных результатов в реальных приложениях.

Мы используем опыт интеграции Microsoft Word с Copilot, чтобы увидеть, как оптимизируется контекст для достижения наилучших результатов.

Участники получат представление об архитектурных шаблонах, передовых методах и уроках, извлеченных из развертывания решений больших языковых моделей производственного уровня.
Јелена Граовац,
Белградский университет
Оценка открытых ответов студентов с помощью LLM
Подробнее
Будет представлена открытая платформа для автоматизированной проверки заданий с открытыми ответами в высшем образовании, основанная на больших языковых моделях. Цель системы — снизить нагрузку на преподавателей и повысить согласованность оценивания.
Платформа позволяет настраивать строгость проверки и поддерживает два подхода: проверку по эталону на основе предоставленных преподавателем решений и комментариев, а также генеративную проверку, при которой эталонные ответы автоматически синтезируются из учебных материалов. Для каждого ответа система формирует числовую оценку и структурированное объяснение, выделяющее корректные рассуждения, пропуски и концептуальные ошибки, что обеспечивает прозрачность проверки.
Эксперименты на реальных экзаменационных работах по нескольким курсам показали высокое соответствие оценок системы и экспертов, с коэффициентом корреляции Пирсона до 0,90. При этом эталонная проверка продемонстрировала более высокую стабильность и точность по сравнению с генеративным подходом. Полученные результаты свидетельствуют о том, что использование LLM для автоматизированного оценивания может существенно повысить эффективность и надежность процесса в рамках подхода human-in-the-loop.
Стохастическая оптимизация функции потерь в процессе обучения глубоких нейронных сетей имеет много общего с классическими термодинамическими системами. Анализируя стохастические дифференциальные уравнения, описывающие эволюцию (масштабно-инвариантной) нейронной сети в процессе обучения, мы выводим характеристики её стационарного состояния. Удивительно, но оно становится очень похожим на закон идеального газа. Следуя этому сходству, можно определить аналоги температуры, давления и объёма для нейронных сетей. Используя эти аналогии, мы устанавливаем различные термодинамические потенциалы, такие как свободная энергия Гиббса и Гельмгольца, и показываем, что они минимизируются в процессе обучения при использовании популярных протоколов обучения.
13:15 – 13:30
Перерыв
13:30 – 14:00
Параллельные сессии
Генеративный AI - разработка
Зал С
Большой зал
Зал А
ИИ и инвестиции
Исследования в LLM
Взгляд изнутри на прагматичный подход Китая к развитию искусственного интеллекта.
Илья Павлов,
SVST Ventures
Подробнее
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Кирилл Штабцовский,
AlphaSemantic
AI/ML в венчурном капитале
Подробнее
Марат Саидов,
Microsoft
Готовые к эксплуатации адаптеры для языковых моделей на устройстве
Подробнее
В этом докладе рассказывается о том, как создавались готовые к работе адаптеры LoRa для языковых моделей на устройствах. Я расскажу о нашем подходе к обучению адаптеров и о том, как мы использовали его для обобщения обсуждения и переписывания вариантов использования. Я также расскажу о предостережениях и недостатках адаптеров LoRa, о которых должны знать инженеры для создания стабильных и надежных решений.
В данной презентации представлен анализ ключевых тенденций, определяющих развитие искусственного интеллекта в Китае. Рассматривается уникальное взаимодействие централизованной промышленной политики, крупномасштабных экосистем данных и инновационных моделей, характеризующих китайский ландшафт искусственного интеллекта. Также исследуются новые тенденции в вертикально интегрированных решениях для производства, логистики и интеллектуального управления. В отчете будут рассмотрены ключевые факторы этой тенденции, включая критическую роль венчурного капитала (ВК) в соединении государственных инициатив с рыночными, гибкими инновациями, а также стратегическое стремление к технологической самодостаточности в вычислительной технике. В частности, мы рассмотрим, как венчурные инвестиции сместились от моделей, ориентированных на потребителя, к глубоким технологиям, промышленной интеграции и базовому оборудованию.
Как создать вирусный генератор стикеров на основе фотографий пользователей с использованием ИИ
Наталья Ханжина,
Независимый Исследователь
Подробнее
В этом докладе мы поделимся нашим рецептом создания совершенно нового продукта GenAI, который привлек более 200 000 пользователей и полностью построен на основе искусственного интеллекта. Мы рассмотрим все аспекты, от генерации данных до полного стека нейронных сетей, и все это будет выполнено одним инженером-программистом в области ИИ.
Решения, основанные на генеративном ИИ в Лемана ПРО (ex-Леруа Мерлен)
Ксения Блажевич, Лемана Тех
Подробнее
В докладе подробно рассматриваются два решения для контент-генерации: продукт для автоматической генерации текстовых описаний товаров и система генерации интерьерных изображений по одной предметной фотографии, предоставленной поставщиком. Для отдельных товарных категорий (шторы, обои, декор, освещение, садовая мебель) задача заключается в корректном размещении объекта на релевантном фоне с сохранением геометрии, масштаба, проекции и визуальной неизменности объекта.
Еще два продукта основаны на больших языковых моделях. Корпоративный LLM-чат-бот предоставляет сотрудникам доступ к внутренней базе знаний компании и позволяет снизить затраты на решения такого класса в шесть раз по сравнению с коммерческими аналогами при одновременном снижении рисков безопасности. ИИ-ассистент на базе RAG и агентных подходов для колл-центра помогает операторам отвечать на вопросы клиентов и сокращает среднее время ответа примерно на 30%.
Доклад ориентирован в первую очередь на бизнес-аудиторию, но сопровождается ссылками на используемые архитектуры и технологии. Отдельный акцент будет сделан на генерации интерьерных изображений — области, по которой на сегодняшний день существует крайне мало публичных кейсов и практических разборов.
14:00 – 15:00
Обед
15:00 – 15:45
Параллельные сессии
Генеративный AI - академический трек
Зал С
Большой зал
Зал А
Обучение с подкреплением
Визуально-языковые модели
Reinforcement Learning (тема на уточнении)
Руслан Салахутдинов,
Carnegie Mellon University
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
RusCode: бенчмарк российского культурного кода для генерации изображений по тексту
Юлия Агафонова, Сбер
Подробнее
Вячеслав Васильев,
Kandinsky Lab
Kandinsky 3: синтез изображений по тексту для многофункциональной генеративной платформы
Подробнее
VLM в Avito: архитектура и адаптация для эффективных приложений маркетплейса

Константин Веснин,
Avito Tech
Подробнее
Этот доклад посвящен двум подходам к использованию визуально-языковых моделей (VLM) в продакшене в Avito:
  1. Архитектура VLM
  2. Адаптация предобученных VLM к новому языку и бизнес-задачам
В архитектурной части мы рассматриваем базовый пайплайн «энкодер изображений + LLM», сравниваем легковесные адаптеры с архитектурами типа Q-Former, а также обсуждаем обработку изображений высокого разрешения (multi-crop), M-RoPE и простой подход к работе с видео через семплирование кадров.
Далее мы переходим к адаптации. Если языковая адаптация хорошо изучена для LLM, то мы предлагаем специфичный для VLM подход, который сочетает мультимодальные инструкционные данные из маркетплейс-листингов, переведенные публичные инструкционные датасеты и улучшения токенизатора. Такой подход позволяет добиться до двукратного прироста эффективности при работе с другим языком.
В завершение мы показываем, как адаптированная VLM эффективно интегрируется в рабочие процессы Avito, обеспечивая генерацию описаний, ключевых слов для поиска и OCR, с подтверждением качества на бенчмарках и прикладных задачах.
Физически и семантически согласованные методы машинного обучения для устойчивой визуальной локализации в сложных условиях
Сергей Колюбин,
ИТМО
Подробнее
В докладе будет представлен систематический обзор недавних результатов исследований лаборатории BE2R Университета ИТМО, посвященных визуальной локализации в динамических и визуально деградированных средах, что позволяет обеспечивать устойчивую автономность роботов, а также применять эти подходы в AR/VR и других областях.
Все рассматриваемые методы объединены общей концепцией внедрения физической и семантической согласованности в статистические методы машинного обучения за счет новых архитектур глубоких нейронных сетей, представлений мира и подходов к сопоставлению данных. Это позволяет сформировать надежный слой пространственного интеллекта для систем Embodied AI.
Особое внимание будет уделено инсайтам из наших работ, принятых в 2025 году на ведущие конференции уровня Core A*/A по робототехнике и ИИ, такие как IEEE ICRA и IROS. Кроме того, в докладе будут представлены новые результаты, недавно поданные на конференции уровня A* 2026 года.
Модели преобразования текста в изображение (T2I) популярны благодаря внедрению методов обработки изображений, таких как редактирование, слияние изображений, заполнение пропущенных областей и т. д. Одновременно с этим, на основе моделей T2I строятся модели преобразования изображения в видео (I2V) и текста в видео (T2V). Мы представляем Kandinsky 3, новую модель T2I, основанную на скрытом диффузионном преобразовании, обеспечивающую высокий уровень качества и фотореализма. Ключевой особенностью новой архитектуры является простота и эффективность ее адаптации для многих типов задач генерации. Мы расширяем базовую модель T2I для различных приложений и создаем многофункциональную систему генерации, которая включает в себя заполнение/выполнение пропущенных областей с помощью текста, слияние изображений, слияние текста и изображений, генерацию вариаций изображений, генерацию I2V и T2V. Мы также представляем упрощенную версию модели T2I, оценивающую вывод в 4 шага обратного процесса без снижения качества изображения и в 3 раза быстрее, чем базовая модель. Мы развернули удобную демонстрационную систему, в которой все функции можно протестировать в открытом доступе. Кроме того, мы опубликовали исходный код и контрольные точки для модели Кандинского 3 и её расширенных версий. Оценки пользователей показывают, что модель Кандинского 3 демонстрирует один из самых высоких показателей качества среди систем генерации с открытым исходным кодом.
Павел Кузнецов,
Контур
Внедрение системы детекции дипфейков в ВКС-систему: пример Kontur.Talk
Подробнее
Современные видеоконференции все чаще используются в ситуациях, требующих высокого уровня доверия, таких как финансовые услуги, ставки, СМИ, управление персоналом, связи с государственными органами и образование, где обсуждается конфиденциальная личная или деловая информация.

В то же время, инструменты для создания дипфейков в реальном времени позволили имитировать собеседника во время видеозвонка, используя лишь обычный игровой графический процессор и виртуальную камеру.

В этом докладе мы представим систему обнаружения дипфейков, развернутую на платформе видеоконференций Kontur.Talk и используемую в качестве «второго мнения» для операторов. Система анализирует видео и предоставляет операторам автоматическую оценку подлинности, снижая как риск мошенничества, так и когнитивную нагрузку на сотрудников.

Мы опишем, как мы создали наш детектор дипфейков, как разработали эталонный тест для оценки в реальных условиях, отражающий методы замены лиц в реальном времени и артефакты видеозвонков, и как интегрировали модель в масштабируемый конвейер. Мы также обсудим ключевые проблемы, включая изменение предметной области и быструю эволюцию генераторов дипфейков.

По результатам наших внутренних тестов, наш детектор превосходит коммерческое решение стороннего производителя, оставаясь при этом достаточно быстрым для использования в производственных условиях. Помимо качества обнаружения, система обеспечивает значительную коммерческую ценность: в одном из реальных развертываний среднее время проверки звонка сократилось примерно с шести минут до двух, что соответствует рабочей нагрузке примерно пяти штатных операторов при текущих объемах.

Этот пример демонстрирует, как обнаружение дипфейков может быть успешно внедрено в реальные системы видеоконференцсвязи не только в качестве функции безопасности, но и как инструмент повышения операционной эффективности в условиях высокого уровня доверия при онлайн-взаимодействиях.
Модели генерации текста в изображения приобрели популярность среди пользователей по всему миру. Однако многие из этих моделей демонстрируют сильную предвзятость в отношении англоязычных культур, игнорируя или искажая уникальные особенности других языковых групп, стран и национальностей.
15:45 – 16:00
Перерыв
16:00 – 16:45
Параллельные сессии
Обучение с подкреплением
Зал С
Большой зал
Зал А
Нейро-когнитивные архитектуры
Алексей Самсонович,
Университет Джорджа Мейсона, НИЯУ МИФИ
Зрение для роботов и беспилотников
Реализация цифрового самосознания на основе когнитивно-нейроморфного подхода
Подробнее
Пространственное понимание и рассуждение на основе графов сцен
Дмитрий Юдин,
МФТИ
Подробнее
Будет объявлен позже
Модератор
Никита Андриянов,
Финансовый Университет
Модератор
Александр Болдачев,
Naevius Fze
Модератор
Алексей Ковалев, AIRI, MIPT
Vision-Language-Action Models: от основ к будущему
Подробнее
Алексей Кабанов,
BTR R&D
Элементарный универсальный цикл непрерывного внимания как новая модель для вычисления обобщений мета-аттрактора
Подробнее
Освоить модели diffusion bridge несложно, а сделать их быстрыми и практичными - целое искусство. Модели Diffusion bridge (СУБД) являются многообещающим расширением моделей diffusion для приложений, связанных с преобразованием изображений в изображения. Однако, как и многие современные диффузионные и потоковые модели, СУБД страдают от проблемы медленного вывода. Чтобы решить эту проблему, мы предлагаем новый метод дистилляции, основанный на формулировке обратного мостового согласования, и определяем достижимую цель для ее практического решения. В отличие от ранее разработанных методов дистилляции СУБД, предлагаемый метод позволяет выделять как условные, так и безусловные типы СУБД, выделять модели в одноступенчатом генераторе и использовать только поврежденные изображения для обучения. Мы оцениваем наш подход как для условного, так и для безусловного сопоставления мостов в широком наборе настроек, включая сверхразрешение, восстановление в формате JPEG, преобразование эскиза в изображение и другие задачи, и показываем, что наш метод дистилляции позволяет нам ускорить вывод данных из СУБД с 4 до 100 раз и даже обеспечить лучшее качество. качество генерации выше, чем у используемой модели преподавателя, в зависимости от конкретной настройки.
Архитектуры современных LLM и VLM сильно отличаются от функциональной архитектуры человеческого мозга. В результате LLM обладают ограниченными когнитивными способностями по сравнению с человеком. Принципы, заимствованные из мозга и выраженные в форме биологически инспирированной когнитивной архитектуры (BICA), могут быть очень полезны при проектировании агентов на основе LLM. Предложенный подход вдохновлен когнитивной нейропсихологией и функциональной нейроанатомией. Показано, как идеи метакогниции и самосознания, реализованные в форме многоагентной системы, могут способствовать проектированию нейроморфной архитектуры, потенциально приводя к созданию ИИ нового поколения. Представленные эмпирические данные свидетельствуют о том, что самосознающие архитектуры на основе LLM могут быть более эффективными по сравнению с традиционными многоагентными архитектурами при решении сложных задач LLM.
В этом докладе представлен всесторонний обзор моделей «зрение-язык-действие» (VLA) — передовых систем, которые связывают визуальное восприятие и естественный язык с физическими действиями. Мы рассмотрим современное состояние дел, включая их архитектуру, методы обучения и применение в робототехнике и автономных системах. Затем обсуждение перейдет к будущему, затронув ключевые проблемы, такие как безопасность, обобщение и внедрение в реальных условиях, а также обозначив захватывающие перспективы для действительно универсального воплощенного ИИ.
Современные трансформеры требуют огромных вычислительных ресурсов как во время обучения, так и во время выполнения модели. Предложенная концепция построения иерархии обобщений в виде траекторий аттракторов основана на непосредственном построении структуры обобщений и может быть обучена на существующих моделях.
Антон Колонин,
Aigents
Когнитивная архитектура для нейросимвольного опытного обучения
Подробнее
Представляем оригинальную когнитивную архитектуру для нейросимволического обучения на основе опыта, использующую пространство состояний и глобальную обратную связь, решающую задачу обучения с подкреплением в таких средах, как Open AI Gym и Atari Breakout.
Мы рассмотрим подходы к уменьшению ошибок, повышению точности, улучшению масштабируемости и обеспечению надежных и экономически эффективных результатов в реальных приложениях.

Мы используем опыт интеграции Microsoft Word с Copilot, чтобы увидеть, как оптимизируется контекст для достижения наилучших результатов.

Участники получат представление об архитектурных шаблонах, передовых методах и уроках, извлеченных из развертывания решений больших языковых моделей производственного уровня.
Игры с нулевой суммой и позиционным дифференциалом как основа для надежного обучения с подкреплением: подход глубокого Q-обучения
Антон Плаксин,
Nebius
Подробнее
Робастное обучение с подкреплением (Robust Reinforcement Learning, RRL) — это перспективная парадигма обучения с подкреплением (RL), нацеленная на обучение моделей, устойчивых к неопределённости и возмущениям, что делает их более эффективными для применения в реальных условиях. В рамках этой парадигмы неопределённость или возмущения интерпретируются как действия второго, антагонистического агента, и тем самым задача сводится к поиску таких стратегий агентов, которые были бы робастны к любым действиям противника.
В данной работе впервые предлагается рассматривать задачи RRL в рамках теории позиционных дифференциальных игр, что позволяет получить теоретически обоснованную интуицию для разработки централизованного подхода Q-обучения. В частности, мы доказываем, что при выполнении условия Айзекса (достаточно общего для реальных динамических систем) одна и та же Q-функция может использоваться в качестве приближённого решения как минимаксного, так и максиминного уравнений Беллмана. Опираясь на эти результаты, мы предлагаем алгоритмы Isaacs Deep Q-Network и демонстрируем их превосходство по сравнению с другими базовыми алгоритмами RRL и многоагентного обучения с подкреплением в различных средах.
HGRPO: иерархическая групповая оптимизация политики вознаграждения для многошаговых диалоговых агентов
Карина Романова, Яндекс
Подробнее
Обучение диалоговых агентов для многошаговых диалогов с использованием обучения с подкреплением сталкивается с фундаментальной проблемой: как корректно распределять вклад отдельных действий, если сигнал вознаграждения поступает только в конце диалога. Group Relative Policy Optimization (GRPO) решает эту задачу за счет группировки похожих действий, однако в стандартных реализациях все шаги диалога объединяются в одну группу, что приводит к сравнению несопоставимых действий на разных стадиях диалога.
Мы представляем HGRPO (Hierarchical Grouped Reward Policy Optimization) — новую модификацию GRPO, вводящую иерархическую группировку шагов для многошаговых диалоговых агентов. Наш подход включает две взаимодополняющие стратегии группировки:
  1. Динамическая группировка на основе состояния, при которой шаги сравниваются только в схожих диалоговых состояниях, а мягкое присваивание позволяет одному шагу принадлежать к нескольким группам с разными весами.
  2. Древовидная группировка, объединяющая действия по их позиции в дереве принятия решений диалога.
Мы применили HGRPO для обучения агента бронирования ресторанов и салонов красоты, который развернут в продакшене умного помощника Алиса в Яндексе. Результаты показали значительное улучшение правдивости ответов агента (прирост на 8,0 процентных пункта на продакшн-трафике) и сокращение длины диалога на 10,7% при сохранении уровня успешности выполнения задач. Иерархическая группировка особенно улучшила способность агента давать честные ответы и избегать галлюцинаций за счет корректного определения того, какие действия на каких этапах диалога приводят к правдивым результатам. Сокращение длины диалога демонстрирует, что HGRPO позволяет более эффективно выбирать действия благодаря лучшему пониманию того, какие шаги действительно способствуют достижению цели.
Полученные результаты показывают, что корректное распределение вклада действий с помощью иерархической группировки является критически важным для обучения высококачественных многошаговых диалоговых агентов, и предложенный подход применим и к другим агентным задачам, требующим последовательного принятия решений.
16:45 – 17:00
Перерыв, кофе
17:00 – 18:15
Интеллект и сознание
Большой конференц-зал
17:00 – 17:20
Почему у LLM не появляется сознание
Александр Крайнов,
Яндекс
Человечество так и не пришло к единому мнению что такое сознание и как определять его наличие. Но тем не менее довольно очевидно, что у LLM его нет.
Так почему сознание есть, например, у мыши, а у LLM при примерно таком же порядке параметров его нет?
Видимо ответ мы получим тогда, когда сможем (если сможем) создать нейросеть, обладающую сознанием. Ну а пока мы можем анализировать чем принципиально отличается искусственная и естественная нейросеть, и строить гипотезы что из этих отличий играет ключевую роль в появлении сознания.
17:20 – 17:50
Теория сознания и субъектности
Игорь Пивоваров,
МФТИ, Openalks.AI
В докладе предлагается новая теория возникновения сознания, субъектности и интеллекта – TEVSER, выводящаяся из фундаментальной математической теоремы. Центральным элементом теории является идея живого организма, как саморегулирующейся системы. Эволюцию живого можно рассматривать как эволюцию регуляторов, начиная с самого базового типа регуляции «на основе ошибки» и заканчивая сложными регуляторами, строящими модель мира и себя в мире. Сознание рассматривается не как единое целое, а как последовательно формирующиеся слои регуляции – это позволяет разделить сложное понятие «сознание» на части и посмотреть на них с точки зрения функционального проектирования и их возникновения. Теория TEVSER органично интегрирует в себя теорию глобального рабочего пространства, теорию высших порядков, теорию предиктивного кодирования и другие теории сознания.
17:50 – 18:15
Дискуссия
Сергей Шумский,
главный научный сотрудник,
Symbolic Mind, Inc
Константин Анохин (онлайн),
проф., д.м.н., академик РАН
Институт исследования мозга, МГУ
Александр Крайнов,
Директор по развитию технологий искусственного интеллекта, Яндекс
Игорь Пивоваров,
Руководитель Аналитического Центра Института искусственного интеллекта МФТИ,
Директор OpenTalks.AI
18:15 – 18:30
Закрытие конференции
Большой конференц-зал
19:00 – 23:00
Вечеринка с живой музыкой
Ужин в центре города в известном ресторане, включающий еду, напитки и живую музыку. У Вас будет замечательная возможность неформально пообщаться со спикерами и участниками конференции и послушать выступления музыкальных групп из индустрии AI/ML!