Открытая конференция по ии

OpenTalks.AI /
2022

Программа
OpenTalks.AI 2022

версия от 15.02.2022
16 февраля
Tutorials
только online
17 февраля
День CV и RL
18 февраля
День NLP и Hardware

День CV и RL

Четверг, 17 Февраля
09:00 – 10:00
Регистрация
10:00 – 10:10
Открытие конференции и дня
Игорь Пивоваров, OpenTalks.AI
Что будет на конференции, основные идеи, цифры, акценты.
10:10 – 11:25
Пленарная сессия 1 - обзоры
Большой конференц-зал
10.10 – 10.50
Computer vision - главное в 2021
Алексей Досовицкий, Inceptive, ex-Google Brain
Vision in 2021: Transformers, Transfer, and Beyond
10.50 – 11.25
Нейроморфные системы искусственного интеллекта
Денис Ларионов, ЧУ Цифрум, Росатом
В докладе будет рассмотрен принцип классификации нейроморфных систем искусственного интеллекта и приведен аналитический обзор в соответствии с предложенным принципом следующих нейроморфных проектов: SpiNNaker, TrueNorth, Loihi, BrainScaleS, Tianjic, NeuronFlow, Akida, DYNAP, Алтай. Для каждого проекта будут приведены примеры решения прикладных задач и другие интересные особенности.
11:25 – 11:45
Перерыв
11:45 – 12:45
Параллельные сессии
CV в медицинской диагностике: московский опыт
Модератор
Зал Галактики 1-3
Зал Сатурн
Большой зал
Сергей Морозов,
Центр диагностики и телемедицины ДЗМ
Научные доклады в ML
Разработка в CV
Кирилл Арзамасов, ДЗМ
Может ли сейчас ИИ заменить рентгенолога?
Байесовская RetinaNet для моделирования гомоскедастичной алеаторной неопределенности в задаче детекции объектов на изображениях
Наталья Ханжина,
ИТМО
Открытые бенчмарки для задач обнаружения аномалий во временных рядах
Юрий Кацер,
Сколтех, ЧУ Цифрум
Машинное обучение в астрофизике: как восстановить утерянную информацию о сверхновых?
Артем Просветов,
ИКИ РАН
Вячеслав Козицин,
Сколтех, ЧУ Цифрум
Vision Transformers - обзор архитектур, основных идей и трюков.
Илья Контаев,
xperience.ai
Андрей Федулин,
АО «КТ - Беспилотные Системы»
Актуальные задачи и проблемы внедрения систем технического зрения для БпЛА класса MALE
Подробнее
Цель доклада продемонстрировать достижения алгоритмов на основе ИИ для лучевой диагностики и сравнить с результатами работы «среднего» врача-рентгенолога. В качестве материалов использованы результаты работы Эксперимента по применению компьютерного зрения в лучевой диагностике (mosmed.ai) и результаты «ИИ-батла» с участием 8 коммерческих алгоритмов и 366 врачей-рентгенологов. ИИ-алгоритмы способны решать задачи по подготовке протоколов описаний и заключений по исследованию, а также способны классифицировать патологические находки и корректно отмечать их на рентгенологических изображениях. Однако до сих пор в работе алгоритмов встречаются технологические дефекты, обусловленные некорректным определением анатомической области, изменением параметров изображения, приводящее к невозможности проведения его клиникой оценки врачом-рентгенологом и, выявлением находок за пределами целевого органа. При сопоставлении метрик диагностической точности с таковыми «среднего» врача-рентгенолога, видим существенное отставание ИИ от врача. Наиболее близки к врачу-рентгенологу только ИИ-алгоритмы, определяющие поражения лёгких при Covid-19. Стоит отметить появление новых алгоритмов ИИ, способных выполнять скрининговые исследования патологий, которые требуют отдельных пакетов рентгенологических инструментов или остаются без внимания при описании исследования врачом, но при этом могут быть важны для дальнейшего ведения пациента.
Подробнее
Предложены функции потерь для обучения нейронной сети RetinaNet, моделирующие гомоскедастичную алеаторную неопределенность, для детекции объектов на изображении. Функции получены с помощью байесовского вывода и позволяют использовать его в существующих нейросетевых детекторах, основанных на архитектуре RetinaNet. Преимущества функций потерь продемонстрированы на двух задачах детекции изображений. С помощью новых функций потерь удалось повысить точность детекции, а именно локализации и классификации, на изображениях набора данных COCO в среднем на 1,7%, на наборе изображений пыльцы - на 2,76%. Показано, что моделирование гомоскедастичной алеаторной неопределенности в процессе обучения нейронной сети позволяет отделять шум, присущий данным, от сигнала, тем самым повышая точность решения задач.
Общая проблема обнаружения аномалий во временных рядах часто разделяется на две конкретные проблемы: обнаружение выбросов (outlier detection, для точечных аномалий) и обнаружение точек изменения состояния (changepoint detection, для коллективных аномалий). Открытые датасеты обычно используются для оценки алгоритмов и методов, решающих каждую из проблем. К сожалению, доступные открытые датасеты с аномалиями обычно не относятся к области аномалий в промышленности по крайней мере по двум причинам: машинное обучение - относительно новый метод, а промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Отсутствие открытых датасетов для обнаружения аномалий привело нас к идее создания нового хорошо описанного структурированного открытого датасета для обнаружения аномалий. Мы предлагаем Skoltech Anomaly Benchmark (SKAB), который состоит из многомерных наборов данных, включая данные как в исправном, так и в неисправном режимах. Наборы данных размечены как для проблемы обнаружения выбросов, так и для проблемы обнаружения точек изменения состояния.
Подробнее
В докладе рассматриваются актуальные задачи повышения применения крупноразмерных БпЛА двойного назначения в задача аэромониторинга, решаемые с помощью систем технического зрения с элементами ИИ, а также специфика и проблематика их внедрения в авиационной индустрии.
Подробнее
За последние несколько лет архитектуры на базе Transformer заняли важное место в задачах обработки естественного языка. Однако использование механизма self-attention в задачах компьютерного зрения ограничено из-за квадратичной сложности данной операции. В ходе доклада будут рассмотрены основные идеи и трюки, использованные в Vision Transformer (ViT), которые позволяют решать задачу классификации изображений без использования свёрточных слоёв. Более кратко рассмотрим другие основные архитектуры из данного семейства.
Подробнее
В нашей работе проведен анализ широкой выборки сверхновых по данным Open Supernova Catalog, дополненной 10 объектами из класса сверхновых с зарегистрированным гамма всплеском. В нашем анализе мы сфокусировались на форме долговременной кривой блеска сверхновых, а также на проверке связей между ее характеристиками. С помощью методов машинного обучения мы смогли разработать модель, способную различать два класса объектов, используя информацию о кривой блеска, а также восстанавливать информацию о светимости сверхновой на ранней стадии. Найденная возможность классификации дает важную возможность: в случаях с недостаточным количеством наблюдательных данных описанный метод способен помочь разрешить тип спорных объектов, и, кроме того, возможно использовать разработанный классификатор для поиска сверхновых с гамма всплесками в архивных данных.
Подробнее
Модератор
Андрей Фильченков, ИТМО
Партнеры сессии
Партнер сессии
Егор Захаров,
Samsung AI Center, Сколтех
Neural Rendering for Telepresence
Подробнее
Данный доклад фокусируется на автоматизированной платформе для оценки качества сервисов на основе алгоритмов компьютерного зрения в рентгенологической практике. Для оценки качества ИИ-сервисов был разработан инструмент ROC анализа, реализованный также в формате веб-сайта. Он позволяет рассчитать матрицу ошибок, основные метрики точности, а также построить ROC кривую с 95% доверительным интервалом. Инструмент позволяет визуализировать оптимальные пороговые значения по точкам с максимальным индексом Юдена или минимальным расстоянием до левого верхнего угла графика. Для того, чтобы автоматизировать процесс оценки сервисов на основе данного инструмента, была разработана платформа на основе метода обмена сообщениями и файлами между ИИ-сервисами и платформой. При этом, в дополнение к метрикам инструмента ROC анализа происходит автоматическая регистрация времени обработки исследования сервисом. Апробация платформы проводилась на основе семи тестирований шести ИИ-сервисов. Один из сервисов прошел два тестирования на платформе в связи с доработками алгоритма. При этом была полностью снята нагрузка с экспертов, а общее время подтверждения валидности сервиса сократилось с девяти рабочих дней до трех. Данная разработка будет полезна как разработчику, так и конечному пользователю. Оценка на эталонном наборе реальных данных конечному пользователю позволит выбрать оптимальное решение для медицинской организации, а также подтвердить валидность сервиса после доработки, а разработчику позволит найти пути модернизации алгоритма.
Как заставить искусственный интеллект работать в реальной медицинской практике?
Ксения Евтеева,
ДЗМ
Face Recognition: проблемы и вызовы
Евгений Кононенко,
NtechLab
Михаил Беляев,
IRA Labs
Медицинское компьютерное зрение: исследования и продукты
Роман Доронин, EORA.AI
Модератор
Подробнее
В настоящее время существует множество решений на основе технологий искусственного интеллекта для медицинской диагностики, которые их создатели позиционируют как готовые для практического клинического использования. Однако целесообразность широкого практического применения технологий искусственного интеллекта и компьютерного зрения в медицинской диагностике еще предстоит доказать и оправдать. Одним из ключевых шагов при разработке, валидации и эксплуатации моделей машинного обучения являются размеченные наборы данных. На данный момент отсутствуют унифицированные стандарты, методологии и технологические решения, позволяющие формировать большие объемы наборов медицинских данных, пригодных для обучения и валидации (в т.ч. оценка эффективности, безопасности, рисков внедрения) программного обеспечения для медицинской диагностики, в котором используются технологии искусственного интеллекта. В докладе будет рассказано о разработанной в Центре Диагностики и Телемедицины (ГБУЗ «НПКЦ ДиТ ДЗМ») универсальной методологии подготовки наборов данных данных для выбора, настройки и оценки работы ИИ алгоритмов для лучевой диагностики в масштабе мегаполиса и практических результатах методологии.
Эталонные наборы данных для обеспечения надежного внедрения технологий искусственного интеллекта в медицинскую практику
Анна Андрейченко, ДЗМ
Подробнее
Разработка, производство и выпуск в обращение систем искусственного интеллекта, как медицинских изделий, должны в обязательном порядке законодательно и технически регулироваться, т.к. относятся к высокому классу риска. Клинические испытания, технические испытания и последующая экспертная проверка, при регистрации медицинских изделий являются частью оценки безопасности, эффективности и качества продуктов на основе технологий искусственного интеллекта. Методология проведения клинических испытаний, представленная в национальном российском стандарте по клинической медицине (сформирована окончательная редакция), включает клиническую связь и клиническую валидацию на наборах данных, стоит отметить, что за основу взят как национальный, так и международный опыт (рекомендации FDA и IMDRF). Методология также включает рекомендуемый перечень показателей эффективности и требования к наборам данных для тестирования систем искусственного интеллекта, а также требования к исследователям, проводящим испытания и системе менеджмента качества при организации испытаний. Апробация разработанной методологии клинических испытаний систем искусственного интеллекта проведена на базе Центра диагностики и телемедицинских технологий. Клинические испытания систем искусственного интеллекта процесс, который отличается от испытаний других медицинских изделий, в нем принимают участие врачи, ИТ-специалисты, аналитики и инженеры. Достоверное тестирование по разработанной методологии клинических испытаний систем искусственного интеллекта поможет сделать такие инновационные продукты более "прозрачными" и повысить к ним доверие как врачей (медицинского персонала), так и пациентов.
Клинические испытания медицинского ПО с искусственным интеллектом
Виктория Зинченко, ДЗМ
12:45 – 13:00
Перерыв
13:00 – 14:00
Параллельные сессии
Зал Галактики 1-3
Зал Сатурн
Большой зал
CV в
медицине
Модератор
Антон Конушин,
ВШЭ, Samsung
ДНК дата-сайентиста. Как меняется «генетический код» профессии будущего?
Денис Суржко,
начальник управления перспективных алгоритмов машинного обучения ВТБ
Партнер сессии
Научные доклады
в ML
Трансформеры в распознавании медицинских изображений
Евгений Сидоров,
Третье Мнение
Модератор
Партнер сессии
Дата-сайентист без преувеличения одна из самых перспективных профессий. Однако стремительное развитие технологий и все более сложные бизнес-задачи становятся причиной ее постоянной трансформации. Какие запросы к data science формирует сегодня бизнес, какая экспертиза будет востребована в будущем, как меняется образовательный трек специалиста, и какие опыт и знания становятся главным в «ДНК» успешного дата-сайентиста? Анализируем российский и международный опыт.
Подробнее
К выступлению предлагается проект по возвращению зрения полностью ослепшим людям - нейроимплант ELVIS. Это пример практического использования алгоритмов машинного зрения для решения конкретных задач, которые убедительно расширяют пользовательский опыт будущих пациентов. ELVIS - это протезная зрительная система, в которой есть внешняя часть с алгоритмами ИИ, а также внутренний чип, который устанавливается непосредственно на зрительную кору. Это позволяет транслировать изображение с камеры напрямую в мозг, минуя глаза.
Подробнее
Андрей Демчинский,
Лаборатория «Сенсор-Тех»
ELVIS Нейроимплант для восстановления зрения
Михаил Синцов,
ООО Моторика

Гурген Согоян,
Сколтех
ИИ в человекомашинных интерфейсах для протезов
Александр Попов, Лаборатория «Сенсор-Тех»
Анастасия Георгиевская,
Haut.AI
CV в beauty tech
Модератор
Сергей Шумский,
Российская Ассоциация Нейроинформатики
Константин Воронцов,
МФТИ
Александр Крайнов,
Группа компаний «Яндекс»
Алексей Натекин,
Open Data Science
Ирина Пионтковская, Huawei
Человеко-машинное взаимодействие стремительно выходит на новый уровень. Считываемые из мозга или с поверхности тела сигналы биоэлектрической природы, после обработки, могут служить сигналом для управления внешними устройствами. Подобные технологии уже сегодня реализуются в виде коммерчески успешных неинвазивных протезов руки. В исследовательских проектах алгоритмы машинного и глубинного обучения, считывая сигнал активности глубинных структур мозга, способны декодировать и синтезировать речь.
В рамках доклада спикеры опишут основной спектр задач, решаемых при помощи нейро- и мио-сигналов, и каким трансформациям необходимо подвергнуть сигнал для успешного декодирования. В ходе презентации будет рассмотрен кейс Моторики и Сколтеха по управлению протезом руки с четырьмя степенями свободы на основе оптомиографических сигналов. Также спикеры очертят возможное будущее инвазивных технологий, включающее реабилитацию посредством речевого протезирования.
Подробнее
Подробнее
За последние два года диффузионные модели задали новую планку качества в генеративном моделировании. Эта красивая концепция объединяет в себе нейродиффуры, моделирование на основе скор-функции, приближенные методы байесовского вывода и стохастические дифференциальные уравнения. Их основным недостатком является большое время генерации объекта. В докладе мы рассмотрим причины успеха диффузионных моделей и пути повышения их эффективности за счет уменьшения работы вхолостую на начальном этапе обратной динамики. Получившаяся модель обобщает стандартные диффузионные модели и иерархические вариационные автокодировщики в рамках более общей парадигмы.
Дмитрий Ветров,
НИУ ВШЭ, AIRI
Диффузионные модели с динамически меняющимся размером
Подробнее
При построении предиктивных моделей важно учитывать геометрическую структуру данных - то, как расположены наблюдения в многомерном пространстве. Оценив многообразие данных, мы можем выявить области на многообразии, в которых предиктивная модель не робастна, и, тем самым, становится возможным генерировать как эффективные злонамеренные атаки на модель, так и обеспечивать защиту от них. Доклад посвящён вопросам генерации атак и защиты от них с учётом многообразия данных, а также, в целом, вопросам того, как сравнивать многообразие реальных данных и данных, порождённых генеративной моделью, и за счет этого, например, выявлять искусственно сгенерированные (потенциально, фейковые) наблюдения.
Евгений Бурнаев,
Сколтех, AIRI
Робастность глубоких нейросетей: геометрический подход
14:00 – 15:00
Обед
15:00 – 16:15
Пленарная сессия 2 - обзоры
Большой конференц-зал
15:00 – 15:45
Обучение с подкреплением —
главные результаты в 2021 г.
Валентин Малых, Huawei
В докладе будут рассмотрены самые интересные работы по обучению с подкреплением, вышедшие в 2021 году на основных конференциях по ML.
15.45 – 16:15
Построение независимой экосистемы ИИ.
Опыт Китая
Олег Сиротюк, Huawei
В 2020 году Китай вырвался в лидеры гонки стран в области ИИ. Сегодня Китай аккумулирует огромные массивы информации, китайские ученые публикуют больше всех научных статей и патентов в области ИИ, а каждый третий сервер в мире, который используется для решения задач ИИ, развернут в Китае. Кроме того, Китай достиг серьезного прогресса в области импортозамещения программного и аппаратного обеспечения. В докладе будут представлены основные достижения Китая в области ИИ, а также меры, которые предпринимает китайское правительство для поддержки развития ИИ в стране.
16:15 – 16:30
Перерыв
16:30 – 17:30
Параллельные сессии
Зал Галактики 1-3
Зал Сатурн
Большой зал
Как обучать модели распознавания лиц на миллионах людей?
Евгений Смирнов,
группа компаний ЦРТ
Мотивация у человека и сильного ИИ
Разработка в CV
Как хакнуть метрику качества видео и куда катится мир
Дмитрий Ватолин,
МГУ
ИИ в медицине
открытый разговор
Партнер сессии
Игорь Пудиков,
Врач-психиатр
Партнер сессии
@AGIRussia
Что могут почерпнуть разработчики ИИ из психологии ЕИ. Мотивация
Партнер сессии
Александр Гусев,
Webiomed.AI
Лоран Акопян,
iPavlov
Анастасия Анциферова, Научный сотрудник ВМК МГУ и ИСП РАН
Разработка и внедрение движка по детекции и классификации транспортных средств (тип, цвет, марка-модель)
Подробнее
Анна Мещерякова,
Третье мнение
Николай Ряшин, RegMT
Михаил Беляев, IRA Labs
Подробнее
Внедрение ИИ в реальную медицинскую практику идет с огромными усилиями. Сложность с финансированием через ОМС/ДМС, правовой статус и ответственность за результаты работы ИИ и многое другое - это камни преткновения, которые встают на пути у многих компаний. На этой сессии мы обсудим все эти важные проблемы и возможные пути решения.
Подробнее
Чтобы ответить на вопрос, насколько хорошо обработано изображение или видео, существуют объективные метрики качества. Вместе с бумом нейросетей появилось огромное количество новых ML метрик. Но как и любая нейросеть, learning-метрики подвержены атакам и взломам, нечестно повышающим оценку не самым лучшим результатам, использующим взлом. В лаборатории компьютерной графики и мультимедиа ВМК МГУ мы уже 20 лет занимаемся исследованиями метрик качества видео. В докладе будут представлены наши новые бенчмарки метрик и методы взлома, разработанные под руководством автора. Недавно мы показали, что самые популярные метрики PSNR и SSIM не могут применяться для оценки методов Super-Resolution (хотя активно используются), а методы взлома VMAF могут привести к резкому ухудшению качества видео. В докладе мы покажем, как резко усложнилась эта тема с приходом эпохи нейросетей.
В докладе кратко анализируется соответствие психологических понятий понятиям теории ИИ. Представлены наиболее интересные концепции мотивации как инструмента организации когнитивной деятельности.
Подробнее
Александр Панов,
МФТИ, AIRI
Петр Кудеров,
МФТИ, AIRI
Внутренняя и внешняя мотивация при моделировании поведения когнитивных агентов
Нейроморфные системы компьютерного зрения
Александр Теплюк,
ЧУ «Цифрум»
Семен Буденков,
IntelliVision
Системы контроля трафика: как сделать их интеллектуальными?
Модератор
Артур Газиев,
SberMed.AI
Роман Доронин, EORA.AI
Модератор
Антон Колонин
Aigents, НГУ
Модератор
Александр Гришканич,
АО «Швабе» Госкорпорации «Ростех»
Алексей Рыбаков,
группа компаний ЦРТ
17:30 – 17:45
Перерыв
17:45 – 18:45
Параллельные сессии
CV в бизнесе
Зал Галактики 1-3
Зал Сатурн
Большой зал
Обучение с подкреплением -
что нового
Secure and Private Machine Learning
Александр Ганин,
Точка зрения
Система контроля качества труб на производстве
Евгений Багрянцев,
Ассистгро
Использование технологии компьютерного зрения для идентификации сорняков сельскохозяйственных полей
Patrick Foley,
Intel
Using Federated Learning to improve astronaut health with the NASA Frontier Development Lab
In this talk we explore the use of OpenFL by researchers at the NASA Frontier Development Lab (FDL) to tie together heterogenous human and mouse data using an ensemble of federated causal methods.
Подробнее
Применение компьютерного зрения на базе платформы facemetric для контроля качества продукции. Система сигнализирует о выявленных дефектах, определяет их класс и фиксирует размер. При повторяющихся повреждениях конвейер останавливается, что помогает сократить бракованную продукцию, которая не попадает в продажу, за счёт чего повышается лояльность потребителей.
Подробнее
Подробнее
Мы создали систему, которая способна с высокой (более 60%) точностью идентифицировать видовой состав сорняков по фотографиям полученным с БВС DJI Mavic 2 Pro. Данная информация достаточна для рекомендации технологии защиты растений от сорняков.
Внедрение разработанной системы прослеживаемости трубы позволяет снизить долю дефектов на 10% - на 5 – 15 млн. руб. в год, в зависимости от доли рынка предприятия.
Подробнее
Подробнее
Федеративное обучение позволяет решать проблемы доступа к данным – благодаря этому подходу можно обучать ML модели на распределенных, чувствительных и приватных данных. Это относительно новая парадигма в машинном обучении, но она уже достаточно сильно влияет на различные индустрии, особенно на здравоохранение.
Federated Learning: распределенный подход к машинному обучению на приватных данных.
Ольга Перепелкина,
Intel
Компьютерное зрение для промышленности
Юрий Годына,
Facemetric
SEAL: Self-supervised Embodied Active Learning using Exploration and 3D Consistency
Руслан Салахутдинов,
Carnegie Mellon University
Сергей Алямкин, Enot.ai
Модератор
Александр Жариков, VisionLabs
Использование биометрических технологий в эквайринге
Петр Емельянов,
Bloomtech LLC
MPC- конфиденциальное машинное обучение
Дмитрий Берестнев, ВТБ
Денис Афанасьев,
SberDevices
Модератор
Эксперты из ВТБ и Bloomtech расскажут о том, что такое технология Multy-Party Computation, и как ее использование в реальных условиях позволят компаниям обмениваться данными, не обмениваясь ими.
Подробнее

День NLP и Hardware

Пятница, 18 Февраля
09:00 – 10:00
Регистрация
10:00 – 10:10
Открытие дня. ИИ в России - тренды
Игорь Пивоваров, OpenTalks.AI
10:10 – 11:25
Пленарная сессия 3 - обзоры
Большой конференц-зал
10:10 – 10:50
NLP - главное в 2021 году
Григорий Сапунов, Intento
Обзор основных результатов в обработке естественного языка в 2021 году - достижения и тренды.
10:50 – 11:25
Hardware для ИИ - главное в 2021
Дмитрий Ватолин, ВМК МГУ
Обзор основных направлений развития аппаратных ускорителей для ИИ, что нового и прогноз на будущее.
11:25 – 11:45
Перерыв
11:45 – 12:45
Параллельные сессии
Суперкомпьютеры Яндекса и Сбера
Зал Галактики 1-3
Зал Сатурн
Большой зал
Суперкомпьютеры для машинного обучения. Строить самим или купить готовое решение. Опыт Яндекс
Дмитрий Монахов,
Яндекс
Разработка в NLP
Плотное упорядоченное отображение тезаурусов глаголов и прилагательных на центрально-симметричные круглые области на плоскости
Виктор Введенский,
Курчатовский институт
Мета-эмбеддинги в задаче пополнения таксономии
Михаил Тихомиров,
МГУ
Наталья Лукашевич,
МГУ
Обучение на слабой/шумной разметке
Алексей Чернявский,
Philips AI Research Russia
Сегментация в медицине: как извлечь пользу из «ленивой» разметки
Анастасия Мирошникова,
Цельс
Multiple instance learning: как обучать нейросети на медицинских данных без дополнительной разметки
Дмитрий Усталов,
Яндекс.Толока
Нетривиальная разметка в краудсорсинге и как с ней быть
Партнер сессии
Андрей Петров,
SberCloud
Алексей Климов,
SberCloud
Татьяна Шаврина,
SberDevices, AIRI
Суперкомпьютеры Christofari в публичной платформе ML Space. Опыт SberCloud.
В секции будут питчи стартапов, вышедшие в финал акселерационной программы Tech Explorer Skolkovo
Модератор
Павел Кривозубов,
ИТ-Кластер Фонда «Сколково»
Партнер сессии
Демо-день акселератора Сколково
Зал Вечерний космос
Жюри
Антон Колонин,
Aigents
Интерпретируемая обработка текстов на естественном языке
Давид Дале,
Сколтех
RuBERT-tiny: компактные предобученные модели для понимания русского языка
Подробнее
Графы знаний и онтологии, всегда содержат таксономическую основу, которая позволяет упорядочивать и структурировать различные концепты в соответствии с класс-подкласс (или гипероним-гипоним) отношениями. С быстрым ростом лексических ресурсов проблема автоматического расширения существующих таксономий новыми словами становится все более и более распространенной. В данной работе рассматривается проблема пополнения существующей таксономии новой терминологией. В работе был предложен новый метод, который основывается на векторных представлениях слов и достигает SoTA результатов на рассматриваемых наборах данных. Метод состоит из двух основых частей: формирование мета-векторных представлений слов на основе существующих векторных моделей, и алгоритма, который формирует и ранжирует список концептов-кандидатов для новых слов, решая таким образом поставленную задачу. В работе были исследованы различные комбинации векторных моделей, как класических, таких как word2vec и fasttext, так и графовых, таких как node2vec.
Обзор разработок и state-of-the-art приложений и алгоритмов интерпретируемой обработки текстов на естественном языке в проектах Новосибирского Государственного Университета, Link Grammar, OpenCog, SingularityNET, SingularityDAO, Autonio Foundation и Aigents®
Подробнее
Текст или голосовое сообщение оценивается по количеству переданной информации. Однако живому читателю или слушателю понятно, что эти сообщения несут определенный смысл. Смысл – это нечетко определенное понятие с неясным масштабом. Минимальным же сообщением передающим смысл принято считать слово. Слова могут быть близкими и далекими по смыслу, причем одно слово может иметь разные смыслы. Мы использовали близость слов по смыслу в качестве меры для построения вмещающего пространства для всех глаголов и прилагательных русского языка. В результате оказалось, что тезаурусы глаголов и прилагательных могут быть отображены на компактные круглые области, расположенные на двумерной поверхности. Каждая из этих областей делится на три примерно равных сектора, вмещающих слова с положительным, нейтральным и отрицательным эмоциональным содержанием. Внутри этих секторов размещаются группы слов, выстроенных в упорядоченные списки, относящиеся к определенной семантической категории. Размеры списков плавно меняются от десятков слов до нескольких слов в группе. Мы полагаем, что этот результат отражение того, как устроена словарная память в коре мозга человека.
Подробнее
Different types of annotations can be obtained in a process of labeling images. The most thorough, strong and time-consuming type of labels is multiclass segmentation masks, the least and weakest - binary and multiclass labels per instance. One more level of labels into the weak side is binary or multiclass labels per a whole bag of instances. The examples of such annotations are one label per video (bag of frames), one label per 3D computed tomography or magnetic resonance tomography image (bag of 2D slices), or one label per whole-slide image with dimensions over 16000 * 16000 pixels (bag of 2D tiles). Multiple Instance Learning is one of the approaches which allows data scientists to work with such labels. The main MIL pipeline in Deep Learning is Extract features of instances in a bag Apply aggregation technique Get final prediction for aggregated vector Get loss for that prediction Back-propagate through aggregation layer This pipeline allows to train networks end-to-end. The nature of the connection between instances in a bag - independent, 1d-connected, 2d-connected - allows to apply different aggregation techniques. This report is dedicated to the application of MIL approach to the field with a great amount of weakly labeled data - medical imaging.
Подробнее
Предобученные языковые модели, такие, как BERT, изменили облик NLP за последние несколько лет, но стандартные версии таких моделей, SOTA по качеству, часто плохо пригодны для прикладного применения из-за большого размера и медленной скорости инференса. Дистилляция больших предобученных траснформеров в маленькие может сделать их доступными для более массового применения и даже повысить их качество работы на некоторых задачах. Мы обучили и публикуем несколько подобных маленьких моделей, подготовленных для разных задач понимания русского языка.
Подробнее
Модератор
Владимир Валентинович Воеводин,
МГУ
Игнат Постный,
Tag Consulting
Модератор
Артем Артемов,
НИЦ СТРАТКОМ
Модератор
Денис Свичкарь,
ПАО «Сбербанк»
Бхаскар Багчи, Angelsdeck
Максим Яцкевич, Road.Travel
Максим Саенко,
МТС
Наличие точной пиксельной разметки является важным условием для обучения алгоритмов сегментации. На практике органы на медицинских КТ и МРТ изображениях могут быть заданы шумно или слабо – то есть, не масками с точно обозначенными границами, а в виде многоугольников или ограничивающих рамок. В докладе будет описано несколько методов более эффективного обучения алгоритмов сегментации на плохо размеченных данных, разработанных в исследовательской лаборатории Philips.
Подробнее
В докладе мы обсудим, как краудсорсинг позволяет собирать разметку для нетривиальных задач на примере оценки качества поиска и обновления информации об организациях. Мы покажем, что сложность выполнения подобных заданий можно снизить благодаря специальным методам агрегации для текстовых, графических и субъективных данных. Затем мы представим открытую библиотеку Crowd-Kit, которая реализует популярные методы контроля качества в краудсорсинге и позволяет делать это легко и удобно.
Подробнее
Евгений Романов,
Фонд «Сколково»
Галина Добрякова,
ООО «Платформа Технологий»
Алексей Петровичев, ООО «Нейросканер»
Кирилл Партала,
BID Technologies
Тимофей Окроев,
Турфон
Дмитрий Степанов,
ООО «Системы компьютерного зрения»
Алексей Калиниченко, ФСИТИ
11:45 – 12:45
Параллельные сессии
Модератор
Павел Кривозубов,
ИТ-Кластер Фонда «Сколково»
Демо-день акселератора Сколково
Зал Вечерний космос
В секции будут питчи стартапов, вышедшие в финал акселерационной программы Tech Explorer Skolkovo
Жюри
Максим Саенко,
МТС
Максим Яцкевич, Road.Travel
Бхаскар Багчи, Angelsdeck
Денис Свичкарь,
ПАО Сбербанк»
Евгений Романов,
Фонд «Сколково»
Галина Добрякова,
ООО «Платформа Технологий»
Алексей Петровичев,
ООО «Нейросканер»
Кирилл Партала,
BID Technologies
Тимофей Окроев,
Турфон
Дмитрий Степанов,
ООО «Системы компьютерного зрения»
Алексей Калиниченко, ФСИТИ
Партнер сессии
12:45 – 13:00
Перерыв
13:00 – 14:00
Параллельные сессии