Предварительная версия от 24.01.2026 Время по Белграду, GMT+1
18:00-21:00
Welcome drinks and networking
Отдельная регистрация, будет объявлена позже.
Вечер накануне конференции - прекрасное время выпить бокальчик вина и встретить знакомые лица в неформальной обстановке!) И конечно познакомиться с новыми людьми!)
Там же вы сможете зарегистрироваться на конференцию и получить бейдж, чтобы избежать очереди утром)
День 1
Четверг, 19 Февраля
09:00 – 09:45
Регистрация и приветственный кофе
10:00 – 10:10
Открытие конференции и первого дня
Игорь Пивоваров, OpenTalks.AI
Что будет на конференции, основные идеи, цифры, акценты.
10:10 – 11:30
Пленарная сессия 1 - обзоры
Большой конференц-зал
10.10 – 10.50
ИИ агенты - главное в 2025 году
Татьяна Шаврина Meta
10.50 – 11.30
Эволюционные алгоритмы
Александр Новиков DeepMind (UK)
11:30 – 12:00
Перерыв, кофе
12:00 – 13:00
Параллельные сессии
Нейроморфные вычисления
Зал С
Большой зал
Зал А
LLM в бизнесе
Зал 4
Секция будет объявлена позже
Александр Светкин, Microsoft
ИИ-агенты
Использование LLM для улучшения обработки инцидентов в Azure
Подробнее
AI scientist
Андрей Устюжанин, Constructor University
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Илья Макаров, AIRI
Кооперативные ИИ-агенты в науке и цифровой двойник человеческих взаимодействий
Подробнее
Тема будет объявлена позже
Андрей Лаврентьев, Лаборатория Касперского
Подробнее
Олег Выголов, Лаборатория Касперского
Тема будет объявлена позже
Подробнее
Михаил Киселев, Лаборатория Касперского
Тема будет объявлена позже
Подробнее
undefined
В этой презентации рассматривается применение больших языковых моделей (БЛМ) для улучшения реагирования на инциденты в Microsoft Azure, одной из крупнейших в мире облачных платформ. В ней анализируются несколько инициатив, основанных на искусственном интеллекте, включая сортировку инцидентов и автоматизированное устранение последствий. Хотя более общие решения, такие как автоматически генерируемые сводки инцидентов, улучшили пользовательский опыт, измеримое сокращение времени на устранение инцидентов было достигнуто в основном за счет узкоспециализированных, ориентированных на конкретные команды решений. Ключевые выводы и результаты подчеркивают важность контекста и высококачественных данных, а также риски «галлюцинаций» БЛМ. Хотя ориентированный на команду агентный подход продемонстрировал эффективность, успешное внедрение требует продуманной реализации и глубокой интеграции с существующими рабочими процессами.
Растущая сложность современных научных проблем и экспоненциальный рост объёма данных создают фундаментальные проблемы для традиционных методов исследования. Ограничения человеческого познания и временные ограничения становятся существенным фактором, замедляющим темпы открытий. Перспективным подходом к преодолению этих барьеров является разработка кооперативных агентов искусственного интеллекта. Такие системы предназначены для автономного проведения исследований, что позволяет проводить более глубокий и систематический анализ сложных предметных областей.
В нашем докладе мы расскажем о наших достижениях в области агентов искусственного интеллекта для науки, об участии в конкурсе Google DeepMind Concordia NeurIPS'24 по кооперативным агентам, где мы вошли в топ-5, и о нашей статье на NeurIPS'24, посвященной эмоциональным предубеждениям у агентов LLM, влияющим на рациональность принятия решений.
The significant part of the operational context for autonomous company management systems is the regulatory and legal environment in which corporations operate. In order to create a dedicated operational context for autonomous artificial intelligence systems, the wording of local regulatory documents can be simultaneously presented in two versions: for use by people and for use by autonomous systems. In this case, the artificial intelligence system will get a well-defined operational context that allows such a system to perform functions within the required standards. Local regulations that provide basis for the joint work of individuals and autonomous artificial intelligence systems can form the grounds for the relevant legislation governing the development and implementation of autonomous systems.
undefined
13:00– 13:15
Перерыв
13:15 – 14:00
Параллельные сессии
Исследования в LLM
Зал С
Большой зал
Зал А
Секция будет объявлена позже
Зал 4
Секция будет объявлена позже
ИИ-агенты
Overview: LLM Pre-training in 2025
Владислав Савинов, Яндекс
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Татьяна Аникина, DFKI
Тщательная оценка стратегий генерации данных для языков с ограниченными ресурсами.
Подробнее
Состязательные мультиагентные пайплайны для принятия решений с ИИ
Аркадий Сандлер, True Click Technologies
Даниэль Жолковский, myCouncil
Подробнее
Андрей Кузьминых, Andre AI Technologies
Суперагент на основе ИИ: самоорганизующаяся многоагентная система для решения сложных задач.
Подробнее
За последний год мы стали свидетелями множества релизов моделей с открытым исходным кодом: DeepSeek V3, Kimi K2, Qwen3-Next и другие. Эти модели теперь конкурентоспособны с GPT-5 и Claude на многих бенчмарках, а команды разработчиков открыто делятся своими методами. В статьях описываются несколько прорывов, которые меняют наше представление о предварительном обучении.
В этом докладе Владислав расскажет об основных идеях, появившихся в 2025 году: обучение FP8 в масштабе 600 миллиардов параметров, новые оптимизаторы, такие как Muon, которые наконец-то появились, чтобы бросить вызов AdamW, и другие достижения в повышении эффективности обучения и архитектуре MoE.
Большие языковые модели (БЛМ) все чаще используются для генерации синтетических текстовых данных для обучения более мелких специализированных моделей. Однако сравнение различных стратегий генерации для языковых условий с ограниченными ресурсами отсутствует. Хотя были предложены различные стратегии подсказок — такие как демонстрации, резюме на основе меток и самокоррекция — их сравнительная эффективность остается неясной, особенно для языков с ограниченными ресурсами. В этой статье мы систематически оцениваем производительность этих стратегий генерации и их комбинаций на 11 типологически разнообразных языках, включая несколько языков с крайне ограниченными ресурсами. Используя три задачи обработки естественного языка и четыре БЛМ с открытым исходным кодом, мы оцениваем производительность моделей на сгенерированных данных по сравнению с эталонными данными. Наши результаты показывают, что стратегические комбинации методов генерации — в частности, демонстрации на целевом языке с коррекцией на основе БЛМ — обеспечивают высокую производительность, сокращая разрыв с реальными данными до 5% в некоторых условиях. Мы также обнаружили, что интеллектуальные методы подсказок могут уменьшить преимущество больших БЛМ, подчеркивая эффективность стратегий генерации синтетических данных в условиях ограниченных ресурсов с использованием меньших моделей.
В данной статье представлен AI Super Agent — самоорганизующаяся многоагентная система, предназначенная для автономного декомпозирования, планирования и выполнения сложных задач в мультимодальных областях.
В её основе лежит когнитивное ядро — единая архитектура управления, которая интегрирует восприятие, рассуждения, память и управление целями в непрерывный цикл «Планирование–Выполнение–Управление» (PEC). Это ядро динамически координирует работу серверов протокола контекста модели (MCP), поддерживая согласованность между процессами рассуждений, выполнением действий и долговременной памятью.
В структуру входит графовая память (GraphRAG), дополненная алгоритмами глубокого исследования, что позволяет осуществлять контекстный поиск, семантическое рассуждение на основе графов и итеративный синтез знаний. Механизм графов действий представляет и управляет причинно-следственными зависимостями задач, позволяя агентам строить, оценивать и совершенствовать стратегии в реальном времени.
Благодаря этой архитектуре AI Super Agent демонстрирует способность к самоорганизации, созданию специализированных субагентов и адаптивному обучению на основе мультимодальной обратной связи. Экспериментальные оценки в таких областях, как автоматизация бизнес-процессов, финансовая аналитика и исследовательская разведка, показывают существенное улучшение глубины рассуждений, скорости выполнения задач и эффективности координации по сравнению с традиционными многоагентными базовыми моделями.
Помимо технических достижений, AI Super Agent закладывает основу для автономных когнитивных экосистем — систем, способных к совместной эволюции с участием людей, обеспечивая масштабируемое решение проблем, непрерывное открытие и расширение коллективного интеллекта.
В докладе представлен состязательный мультиагентный фреймворк для решения сложных бизнес-задач, в которых одиночные модели ИИ демонстрируют нестабильность, переуверенность и чувствительность к формулировке запроса. Подход основан на архитектуре взаимодействия нескольких независимых агентов, использующих роли, ограничения и эволюционные стратегии уточнения аргументов для генерации альтернативных позиций. Рассматривается полный пайплайн системы: инициализация ролей, параллельная генерация позиций, механизмы peer review и критики через schema-guided reasoning, итеративное уточнение аргументов и финальная агрегация результатов. Отдельное внимание уделяется адаптивному управлению вычислительным бюджетом, предотвращению коллапса мнений, а также извлечению воспроизводимого консенсуса на основе структурированных предпочтений. Фреймворк реализует stateful by design multi-agent архитектуру: агент-модератор решает эти задачи, оркестрируя раунды и управляя бюджетом без вмешательства в содержание позиций, а агенты-дебатеры сохраняют контекст между раундами и могут использовать внешние инструменты для обоснования аргументов. Это отличает подход от stateless-субагентов в существующих SDK. Показано, как такие архитектуры могут применяться для поддержки стратегических, инвестиционных и управленческих решений.
14:00 – 15:00
Обед
15:00 – 15:45
Пленарная сессия 2 - обзоры
Спикер будет объявлены позже
Большой конференц-зал
15:45 – 16:00
Перерыв
16:00 – 17:00
Параллельные сессии
Оптимизация вычислений
Зал С
Большой зал
Зал А
CV в бизнесе
Зал 4
Секция будет объявлена позже
Георгий Кекелидзе, Innovation Energy
Модератор
Александр Рассадин , Северсталь
Обзоры
Компьютерное зрение для управления работой рудоспуска
Подробнее
Omni‑модальность 2025: как добавляют зрение, голос и действия в LLM — от адаптеров к end‑to‑end моделям и computer‑use агентам
Сергей Овчаренко, Яндекс
Подробнее
Будет объявлен позже
Модератор
Одна видеокарта, сто глаз: многокамерная аналитика в реальном времени для обнаружения сброса грузов на периферии сети.
Михаил Красильников, Bia-technologies
Подробнее
Игорь Пивоваров
Модератор
Легковесные преобразования данных для эффективного сжатия Low-Bit LLMs без потерь.
Александр Демидовский, Huawei, ВШЭ
Подробнее
Человеческий интеллект “по умолчанию” мультимодален: мы одновременно видим, слышим и действуем. В 2025 году индустрия сделала заметный шаг к тому, чтобы LLM стали такими же: vision + voice + action перестали быть “обвязкой вокруг текста” и начали превращаться в полноценные модальности внутри/вокруг модели. В докладе разберём инженерные и исследовательские паттерны, с помощью которых в 2025 году добавляют новые модальности в LLM: (1) входные адаптеры (энкодер → проекция → токены LLM), (2) end‑to‑end omni‑архитектуры с тайм‑синхронизацией аудио‑видео и потоковой генерацией речи (на примере Thinker‑Talker/TMRoPE‑подходов), (3) “action‑модальность” — от tool‑calling к computer‑use моделям, которые воспринимают GUI как изображение и выполняют действия мышью/клавиатурой в итеративном контуре. Отдельный акцент — на том, что в 2025‑м публичные релизы начали системно фиксировать метрики для голоса (WER/устойчивость на шуме, стабильность речи), для vision‑reasoning (MMMU и др.) и для action/computer‑use (success rate на OSWorld/WebArena/WebVoyager и аналогах), что позволяет сравнивать подходы и строить воспроизводимый R&D‑цикл “measure → improve → ship”.
Добыча руды – это отправная точка металлургической промышленности. Качество металлических изделий напрямую зависит от качества руды. Добыча руды – сложный процесс, до сих пор осуществляемый вручную. В компании Severstal Digital мы стремимся к полной цифровизации производства. В данной работе мы представляем решение для интеллектуального мониторинга рудных проходов. Такая технология обеспечивает более автоматизированный контроль над добычей, предотвращает простои производства и повышает качество руды. Разработанная система доказала свою экономическую эффективность и в настоящее время используется на заводах компании Severstal.
В этом докладе представлена комплексная система для анализа инцидентов в реальном времени с использованием нескольких камер, работающая в условиях жестких ограничений по задержке и ресурсам, характерных для промышленных периферийных развертываний. Ключевой особенностью системы является ее способность одновременно обрабатывать 100 потоков видео с камер в режиме реального времени на одном графическом процессоре A100-80GB и обнаруживать конкретный инцидент: выпадение груза рабочими или погрузчиками во время погрузки/разгрузки. Система непрерывно сканирует видеопоток, находит 40-кадровый сегмент, содержащий инцидент падения груза, передает его оператору для проверки и записывает в специальный отчет для статистического анализа и последующего принятия решений.
Сначала мы опишем практические проблемы, возникающие при обработке и анализе таких потоков:
A) Поток независимых каналов камер, которые необходимо синхронизировать в реальном времени с учетом пропускной способности сети;
B) Ограничения памяти графического процессора;
C) Обсуждение разреженных, нестационарных и смещенных данных, которые исключают возможность использования известных метрик на начальном этапе проекта;
E) Проблема определения строгой границы между «хорошим» и «плохим» качеством видеокадров;
F) Модель взаимодействия человека с обратной связью, работающая со скоростью менее секунды, с подробным описанием каркасов пользовательского интерфейса и конвейера обратной связи.
Во-вторых, мы предлагаем нейронный конвейер, который разделяет входящие кадры, классифицирует их по наличию действий, извлекает области интереса на уровне тайлов и применяет нейронную сеть с разделением каналов в качестве альтернативы 3D-сверткам для окончательной классификации тайлов, обеспечивая сквозную задержку менее 200 мс на экземпляре 10G MIG на одном графическом процессоре A100-80G.
В-третьих, мы подробно описываем рабочий процесс обработки данных: обучение сегментатора на полных кадрах, маркировка объектов на уровне тайлов с помощью пользовательского веб-инструмента и замыкание цикла активного обучения в замкнутом корпоративном контуре.
Наконец, мы определяем и непрерывно отслеживаем как бизнес-метрики (регрессия инцидента к ущербу, стоимость ложноотрицательных результатов, NPS оператора), так и технические метрики (например, процент выпадения кадров), одновременно отслеживая дрейф модели.
Доклад будет интересен как инженерам компьютерного зрения, так и представителям бизнеса, желающим доказать экономическую эффективность такой системы.
Большие языковые модели (БЛМ) являются неотъемлемой частью современных систем искусственного интеллекта в областях обработки естественного языка, компьютерного зрения и обучения с подкреплением. Однако быстро растущая сложность БЛМ, характеризующаяся увеличением в 450 раз, приводит к расширению разрыва между размером модели и возможностями оборудования, а также к увеличению накладных расходов на передачу данных во время распределенного обучения, тонкой настройки и вывода. Для решения этих проблем ведущие производители оборудования внедряют поддержку низкобитных форматов в новое поколение аппаратного обеспечения. Однако такие методы с потерями, как квантование и разреживание, уменьшают объем передаваемых данных, но приводят к значительному снижению качества. Сжатие без потерь является многообещающей альтернативой для уменьшения объема данных без ухудшения качества, но оно требует значительных вычислительных ресурсов. Сжатие низкобитных значений является сложной задачей из-за высокой энтропии этих данных и отсутствия простых повторяющихся шаблонов. Для решения этой проблемы и повышения сжимаемости низкобитных данных мы фокусируемся на преобразованиях данных на основе энтропии. Группировка блоков данных с похожими энтропийными свойствами и кластеризация данных с использованием энтропии без потерь являются перспективными подходами в этой области. Эти преобразования являются вычислительно недорогими и неизменно улучшают коэффициенты сжатия без потерь для низкобитных данных LLM в различных современных компрессорах, тем самым снижая накладные расходы на сквозную передачу данных в распределенных рабочих процессах.
17:00 – 17:15
Перерыв, кофе
17:15 – 18:00
Параллельные сессии
LLM & Graph & RAG
Зал С
Большой зал
Зал А
Секция будет объявлена позже
Зал 4
Секция будет объявлена позже
Человек и ИИ - какое будущее нас ждет?
Автоматизация vs коллаборация
Андрей Воронов
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
Юрий Визильтер, МФТИ
Искусственный интеллект и сценарии будущего
Подробнее
Понятная классификация документов с помощью Concept Whitening и Stable Graph Patterns
Сергей Кузнецов, ВШЭ
Подробнее
Даниил Анисимов, Optic
Предшественники, заменители и прогностические модели для задач с долгосрочным горизонтом прогнозирования
Подробнее
Технологии ИИ – это «волшебная палочка», исполняющая желания человека и человечества. Нужно точно и осторожно формулировать свои желания, поскольку они с высокой вероятностью исполнятся. Следует помнить и о непредвиденных последствиях, которые всегда случаются. Насколько мы готовы принять будущее, которое создаем? Насколько мы можем повлиять на результаты применения создаваемых технологий?
ИИ-агенты демонстрируют замечательные успехи в решении различных краткосрочных задач и быстро совершенствуются в задачах с более длительным горизонтом планирования, что создает необходимость оценки возможностей ИИ в сложных задачах, требующих высокой автономности. Оценки, включающие длительные задачи из «реального мира», могут быть лучшими аналогами для прогнозирования общей производительности, но их создание, выполнение и сравнение с базовыми показателями человека обходятся дорого. Кроме того, эти задачи часто зависят от большого, взаимосвязанного набора навыков агентов, что затрудняет прогнозирование развития их возможностей. Мы предполагаем, что предшествующие возможности, такие как «настойчивость», «ловкость» и «адаптивность», предшествуют надежной автономной производительности в задачах с длительным горизонтом планирования, и разрабатываем простые процедурно сгенерированные «прокси»-оценки для оценки этих предшествующих возможностей. Затем мы используем производительность агентов в наших прокси-оценках для калибровки предварительного метода прогнозирования возможностей в более сложной задаче: SWE-Bench. Наши предварительные результаты показывают, что производительность в некоторых прокси-оценках может быть необычайно предсказуемой для производительности в других оценках. Мы обнаружили, что простой прокси-тест адаптивности, основанный на психологии развития, коррелирует с результатами SWE-bench, а три других прокси-теста коррелируют с SWE-bench при r > 0,8. Прокси-тест, занимающий всего 10 шагов, сильно коррелирует с результатами многих других тестов, которые в противном случае занимают гораздо больше времени (сотни шагов). Для нашей прогностической модели наши первоначальные результаты правильно предсказывают оценки агентов в SWE-bench, но имеют большие погрешности, что предполагает, что — протестировав больше моделей на большем количестве синтетических тестов — мы можем быстро и дешево предсказывать результаты в важных задачах с долгосрочным горизонтом.
Мы предлагаем новую понятную систему классификации документов, которая объединяет концептуальное разделение (CW) с графическими концепциями, которые основаны на стабильных графических шаблонах и извлекаются с помощью методов, основанных на формальном концептуальном анализе (FCA) и структурах шаблонов. Графики документов строятся с использованием графов абстрактного представления значений (AMR), из которых извлекаются графические понятия и выравниваются по осям скрытого пространства графовых нейронных сетей (GNN) с использованием CW. Мы исследуем четыре типа графических концепций на предмет их влияния на согласование концепций: часто используемые подграфы, графические шаблоны, отфильтрованные классы эквивалентности и закрытые подграфы. Предлагается новый механизм фильтрации, основанный на поддержке, а также настраиваемая метрика штрафных санкций для уточнения графических концепций для максимального согласования концепций. Эксперименты с 10 группами новостей и наборами данных BBC Sport показывают, что наши графики документов эффективно отражают как структурную, так и семантическую информацию, тем самым поддерживая эффективность конкурентной классификации в различных архитектурах и конфигурациях моделей GNN. Для набора данных из 10 групп новостей модели GNN, оснащенные модулем CW, показывают среднее увеличение на 0,7599 макроусредненного показателя F1 показателя эффективности согласования концепций (CAP), при среднем снижении всего на 0,0025 макроусредненного показателя F1 для классификации документов. Аналогичным образом, в наборе данных BBC Sport среднее повышение лимита составляет 0,6998 при среднем снижении эффективности классификации документов на 0,0894. Кроме того, анализ важности градиента концепций и тепловые карты сходства концепций дают представление о интерпретируемости и структурной разделимости скрытых представлений GNN, достигаемых с помощью CW.
19:00 – 23:00
Закрытый ужин по приглашениям
День 2
Пятница, 20 Февраля
09:00 – 10:00
Регистрация
10:00 – 10:10
Открытие дня
Игорь Пивоваров, OpenTalks.AI
10:10 – 11:30
Пленарная сессия 3 - обзоры
Большой конференц-зал
10:10 – 10:50
ИИ агенты для Фармацевтической промышленности
Роман Доронин, EORA
10:50 – 11:30
Обзор AI Safety
Сергей Николенко, ПОМИ РАН, Synthesis AI
11:30 – 12:00
Перерыв, кофе
12:00 – 13:00
Параллельные сессии
Секция будет объявлена позже
Зал С
Большой зал
Зал А
Секция будет объявлена позже
Зал 4
Секция будет объявлена позже
Генеративные модели
Distillation of diffusion generative models
Евгений Бурнаев, Skoltech
Подробнее
Будет объявлен позже
Модератор
Антон Конушин, МГУ
3D реконструкция в структурированное представление (CAD, BIM)
Подробнее
Освоить модели diffusion bridge несложно, а сделать их быстрыми и практичными - целое искусство. Модели Diffusion bridge (СУБД) являются многообещающим расширением моделей diffusion для приложений, связанных с преобразованием изображений в изображения. Однако, как и многие современные диффузионные и потоковые модели, СУБД страдают от проблемы медленного вывода. Чтобы решить эту проблему, мы предлагаем новый метод дистилляции, основанный на формулировке обратного мостового согласования, и определяем достижимую цель для ее практического решения. В отличие от ранее разработанных методов дистилляции СУБД, предлагаемый метод позволяет выделять как условные, так и безусловные типы СУБД, выделять модели в одноступенчатом генераторе и использовать только поврежденные изображения для обучения. Мы оцениваем наш подход как для условного, так и для безусловного сопоставления мостов в широком наборе настроек, включая сверхразрешение, восстановление в формате JPEG, преобразование эскиза в изображение и другие задачи, и показываем, что наш метод дистилляции позволяет нам ускорить вывод данных из СУБД с 4 до 100 раз и даже обеспечить лучшее качество. качество генерации выше, чем у используемой модели преподавателя, в зависимости от конкретной настройки.
13:00 – 13:15
Перерыв
13:15 – 14:00
Параллельные сессии
Предиктивная аналитика
Зал С
Большой зал
Зал А
GEN AI для бизнеса
Зал 4
Секция будет объявлена позже
Анна-Вероника Дорогуш, Recraft
Секция будет объявлена позже
Создание творческой ИИ платформы
Подробнее
Будет объявлен позже
Модератор
Будет объявлен позже
Модератор
Прогнозирование грозовых явлений в режиме реального времени: прогнозирование молний с 10-минутной временной дискретизацией с использованием метеорологических радаров и геостационарных спутников.
Пётр Вытовтов, Яндекс
Подробнее
Андрей Савченко, Sber AI Lab
Прогнозирование многовариантных временных рядов и последовательностей событий
Подробнее
Генеративный ИИ уже меняет подход дизайнеров к работе — ускоряя генерацию идей и открывая путь к творчеству с меньшими ограничениями. Однако современные инструменты по-прежнему охватывают лишь часть творческого процесса. В этом докладе мы рассмотрим, как появляются новые рабочие процессы в дизайне, что ИИ уже делает хорошо, и в чем он все еще отстает от потребностей творческих специалистов.
В Recraft мы сосредоточены на создании моделей и других технологий, которые дают творческим специалистам полный контроль над своим видением. Достижение этой цели требует решения ряда сложных технологических задач, которые мы также обсудим в ходе этого доклада.
В этом докладе я проанализирую современные методы прогнозирования многомерных временных рядов на перспективу. Я расскажу о регулярных и нерегулярных временных рядах (последовательности событий, например, банковских транзакций). Я также представлю несколько инновационных способов применения больших языковых моделей для анализа последовательности событий. Доклад в основном основан на двух статьях из AAAI'26 (основной раздел): 1) Определение будущего: одновременное прогнозирование последовательности событий с сопоставлением горизонтов (устный доклад) и 2) HN-MVTS: Многомерное прогнозирование временных рядов на основе Гиперсети
Экстремальные погодные явления, такие как сильные дожди, грозы и град, играют огромную роль в различных сферах человеческой жизни: авиации, сельском хозяйстве, повседневной жизни и т. д. Мы решили сосредоточиться на задаче краткосрочного прогнозирования гроз по двум причинам: (1) грозы часто сопровождаются сильными дождями и градом, поэтому они оказывают большое влияние на промышленность и повседневную жизнь, и (2) грозы часто развиваются быстро, поэтому полезно и необходимо прогнозировать их с малой временной дискретизацией, которая в нашем случае составляет 10 минут. Мы разработали модель на основе визуального трансформера, которая использует данные в реальном времени с метеорологических радаров и геостационарных спутников для прогнозирования районов с высокой вероятностью молний, а также для краткосрочного прогнозирования осадков. Полученное качество нашей модели лучше, чем у классических подходов к этой задаче, таких как численное прогнозирование погоды и оптический поток, с точки зрения F1-меры и IoU, а также с точки зрения визуальной оценки. Предложенная модель интегрирована в сервис Yandex Weather в качестве производственной модели.
14:00 – 15:00
Обед
15:00 – 15:45
Параллельные сессии
Генеративный AI - академический трек
Зал С
Большой зал
Зал А
Секция будет объявлена позже
Зал 4
Секция будет объявлена позже
Обучение с подкреплением
Reinforcement Learning (тема на уточнении)
Руслан Салахутдинов, Carnegie Mellon University
Подробнее
Будет объявлен позже
Модератор
Игорь Пивоваров
Модератор
RusCode: Russian Cultural Code Benchmark for Text-to-Image Generation
Юлия Агафонова,
Подробнее
Вячеслав Васильев, Kandinsky Lab
Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework
Подробнее
Модели преобразования текста в изображение (T2I) популярны благодаря внедрению методов обработки изображений, таких как редактирование, слияние изображений, заполнение пропущенных областей и т. д. Одновременно с этим, на основе моделей T2I строятся модели преобразования изображения в видео (I2V) и текста в видео (T2V). Мы представляем Kandinsky 3, новую модель T2I, основанную на скрытом диффузионном преобразовании, обеспечивающую высокий уровень качества и фотореализма. Ключевой особенностью новой архитектуры является простота и эффективность ее адаптации для многих типов задач генерации. Мы расширяем базовую модель T2I для различных приложений и создаем многофункциональную систему генерации, которая включает в себя заполнение/выполнение пропущенных областей с помощью текста, слияние изображений, слияние текста и изображений, генерацию вариаций изображений, генерацию I2V и T2V. Мы также представляем упрощенную версию модели T2I, оценивающую вывод в 4 шага обратного процесса без снижения качества изображения и в 3 раза быстрее, чем базовая модель. Мы развернули удобную демонстрационную систему, в которой все функции можно протестировать в открытом доступе. Кроме того, мы опубликовали исходный код и контрольные точки для модели Кандинского 3 и её расширенных версий. Оценки пользователей показывают, что модель Кандинского 3 демонстрирует один из самых высоких показателей качества среди систем генерации с открытым исходным кодом.
Модели генерации текста в изображения приобрели популярность среди пользователей по всему миру. Однако многие из этих моделей демонстрируют сильную предвзятость в отношении англоязычных культур, игнорируя или искажая уникальные особенности других языковых групп, стран и национальностей. Отсутствие культурной осведомленности может снизить качество генерации и привести к нежелательным последствиям, таким как непреднамеренные оскорбления и распространение предрассудков. В отличие от области обработки естественного языка, культурная осведомленность в компьютерном зрении не была исследована столь широко. В этой статье мы стремимся сократить этот пробел. Мы предлагаем бенчмарк RusCode для оценки качества генерации текста в изображения, содержащей элементы русского культурного кода. Для этого мы формируем список из 19 категорий, которые наилучшим образом представляют особенности русской визуальной культуры. Наш окончательный набор данных состоит из 1250 текстовых подсказок на русском языке и их переводов на английский. Задания охватывают широкий спектр тем, включая сложные понятия из области искусства, популярной культуры, народных традиций, имен известных людей, природных объектов, научных достижений и т. д. Мы представляем результаты оценки человеком параллельного сравнения представлений российских визуальных концепций с использованием популярных генеративных моделей.
15:45 – 16:00
Перерыв
16:00 – 16:45
Параллельные сессии
Обучение с подкреплением
Зал С
Большой зал
Зал А
Секция будет объявлена позже
Зал 4
Секция будет объявлена позже
Зрение для роботов и беспилотников
Пространственное понимание и рассуждение на основе графов сцен
Дмитрий Юдин, МФТИ
Подробнее
Будет объявлен позже
Модератор
Никита Андриянов, Финуниверситет
Модератор
Алексей Ковалев, AIRI, MIPT
Vision-Language-Action Models: от основ к будущему
Подробнее
Игры с нулевой суммой и позиционным дифференциалом как основа для надежного обучения с подкреплением: подход глубокого Q-обучения
Антон Плаксин, Nebius
Подробнее
Понимание и рассуждение о пространстве — фундаментальная задача в компьютерном зрении и искусственном интеллекте. Графы сцен — это структурированные представления, которые отражают объекты и их взаимосвязи, обеспечивая мощную основу для решения этой задачи. В этом докладе мы рассмотрим, как методы, основанные на графах сцен, позволяют роботам и автономным транспортным средствам интерпретировать сложные динамические 3D-сцены, поддерживать рассуждения о взаимодействии объектов и повышать производительность в таких задачах, как визуальные ответы на вопросы, навигация и роботизированное манипулирование. В презентации будут рассмотрены ключевые концепции, последние достижения и реальные примеры применения, иллюстрирующие, как графы сцен объединяют восприятие и рассуждения в интеллектуальных системах.
В этом докладе представлен всесторонний обзор моделей «зрение-язык-действие» (VLA) — передовых систем, которые связывают визуальное восприятие и естественный язык с физическими действиями. Мы рассмотрим современное состояние дел, включая их архитектуру, методы обучения и применение в робототехнике и автономных системах. Затем обсуждение перейдет к будущему, затронув ключевые проблемы, такие как безопасность, обобщение и внедрение в реальных условиях, а также обозначив захватывающие перспективы для действительно универсального воплощенного ИИ.
Надежное обучение с подкреплением (RRL) — это перспективная парадигма обучения с подкреплением (RL), направленная на обучение моделей, устойчивых к неопределенности или возмущениям, что делает их более эффективными для реальных приложений. В рамках этой парадигмы неопределенность или возмущения интерпретируются как действия второго враждебного агента, и, таким образом, задача сводится к поиску стратегий агентов, устойчивых к любым действиям противника. В данной статье впервые предлагается рассматривать проблемы RRL в рамках позиционной дифференциальной теории игр, что помогает нам получить теоретически обоснованное понимание для разработки централизованного подхода к Q-обучению. А именно, мы доказываем, что при условии Айзекса (достаточно общем для динамических систем реального мира) одна и та же Q-функция может быть использована в качестве приближенного решения как минимаксного, так и максиминного уравнений Беллмана. На основе этих результатов мы представляем алгоритмы глубокой Q-сети Айзекса и
16:45 – 17:00
Перерыв, кофе
17:00 – 18:30
Возможно ли сознание у ИИ
Большой конференц-зал
17:00 – 17:20
Исследование элементов сознания у LLM
Александр Крайнов, Яндекс
17:20 – 17:50
Теория сознания и субъектности
Игорь Пивоваров, Openalks.AI
17:50 – 18:30
Дискуссия
Сергей Шумский, к. ф.-м. н, старший научный сотрудник ФИАН, вице-президент Российской Ассоциации Нейроинформатики
Константин Анохин (ожидаем подтверждения), проф., д.м.н., академик РАН Институт исследования мозга, МГУ
Александр Крайнов, Директор по развитию технологий искусственного интеллекта, Яндекс
Игорь Пивоваров, Главный аналитик Центра искусственного интеллекта МФТИ, Руководитель проекта «Альманах Искусственный интеллект», Директор OpenTalks.AI
18:30 – 18:45
Закрытие конференции
Большой конференц-зал
19:00 – 23:00
Вечеринка с живой музыкой
У Вас будет замечательная возможность неформально пообщаться со спикерами и участниками конференции и послушать выступления музыкальных групп!