Суперкомпьютеры Яндекса и Сбера
Суперкомпьютеры для машинного обучения. Строить самим или купить готовое решение. Опыт Яндекс
Плотное упорядоченное отображение тезаурусов глаголов и прилагательных на центрально-симметричные круглые области на плоскости
Виктор Введенский,
Курчатовский институт
Мета-эмбеддинги в задаче пополнения таксономии
Обучение на слабой/шумной разметке
Алексей Чернявский,
Philips AI Research Russia
Сегментация в медицине: как извлечь пользу из «ленивой» разметки
Анастасия Мирошникова,
Цельс
Multiple instance learning: как обучать нейросети на медицинских данных без дополнительной разметки
Дмитрий Усталов,
Яндекс.Толока
Нетривиальная разметка в краудсорсинге и как с ней быть
Алексей Климов,
SberCloud
Татьяна Шаврина,
SberDevices, AIRI
Суперкомпьютеры Christofari в публичной платформе ML Space. Опыт SberCloud.
В секции будут питчи стартапов, вышедшие в финал акселерационной программы Tech Explorer Skolkovo
Павел Кривозубов,
ИТ-Кластер Фонда «Сколково»
Демо-день акселератора Сколково
Интерпретируемая обработка текстов на естественном языке
RuBERT-tiny: компактные предобученные модели для понимания русского языка
Графы знаний и онтологии, всегда содержат таксономическую основу, которая позволяет упорядочивать и структурировать различные концепты в соответствии с класс-подкласс (или гипероним-гипоним) отношениями. С быстрым ростом лексических ресурсов проблема автоматического расширения существующих таксономий новыми словами становится все более и более распространенной. В данной работе рассматривается проблема пополнения существующей таксономии новой терминологией. В работе был предложен новый метод, который основывается на векторных представлениях слов и достигает SoTA результатов на рассматриваемых наборах данных. Метод состоит из двух основых частей: формирование мета-векторных представлений слов на основе существующих векторных моделей, и алгоритма, который формирует и ранжирует список концептов-кандидатов для новых слов, решая таким образом поставленную задачу. В работе были исследованы различные комбинации векторных моделей, как класических, таких как word2vec и fasttext, так и графовых, таких как node2vec.
Обзор разработок и state-of-the-art приложений и алгоритмов интерпретируемой обработки текстов на естественном языке в проектах Новосибирского Государственного Университета, Link Grammar, OpenCog, SingularityNET, SingularityDAO, Autonio Foundation и Aigents®
Текст или голосовое сообщение оценивается по количеству переданной информации. Однако живому читателю или слушателю понятно, что эти сообщения несут определенный смысл. Смысл – это нечетко определенное понятие с неясным масштабом. Минимальным же сообщением передающим смысл принято считать слово. Слова могут быть близкими и далекими по смыслу, причем одно слово может иметь разные смыслы. Мы использовали близость слов по смыслу в качестве меры для построения вмещающего пространства для всех глаголов и прилагательных русского языка. В результате оказалось, что тезаурусы глаголов и прилагательных могут быть отображены на компактные круглые области, расположенные на двумерной поверхности. Каждая из этих областей делится на три примерно равных сектора, вмещающих слова с положительным, нейтральным и отрицательным эмоциональным содержанием. Внутри этих секторов размещаются группы слов, выстроенных в упорядоченные списки, относящиеся к определенной семантической категории. Размеры списков плавно меняются от десятков слов до нескольких слов в группе. Мы полагаем, что этот результат отражение того, как устроена словарная память в коре мозга человека.
Different types of annotations can be obtained in a process of labeling images. The most thorough, strong and time-consuming type of labels is multiclass segmentation masks, the least and weakest - binary and multiclass labels per instance. One more level of labels into the weak side is binary or multiclass labels per a whole bag of instances. The examples of such annotations are one label per video (bag of frames), one label per 3D computed tomography or magnetic resonance tomography image (bag of 2D slices), or one label per whole-slide image with dimensions over 16000 * 16000 pixels (bag of 2D tiles). Multiple Instance Learning is one of the approaches which allows data scientists to work with such labels. The main MIL pipeline in Deep Learning is Extract features of instances in a bag Apply aggregation technique Get final prediction for aggregated vector Get loss for that prediction Back-propagate through aggregation layer This pipeline allows to train networks end-to-end. The nature of the connection between instances in a bag - independent, 1d-connected, 2d-connected - allows to apply different aggregation techniques. This report is dedicated to the application of MIL approach to the field with a great amount of weakly labeled data - medical imaging.
Предобученные языковые модели, такие, как BERT, изменили облик NLP за последние несколько лет, но стандартные версии таких моделей, SOTA по качеству, часто плохо пригодны для прикладного применения из-за большого размера и медленной скорости инференса. Дистилляция больших предобученных траснформеров в маленькие может сделать их доступными для более массового применения и даже повысить их качество работы на некоторых задачах. Мы обучили и публикуем несколько подобных маленьких моделей, подготовленных для разных задач понимания русского языка.
Владимир Валентинович Воеводин,
МГУ
Игнат Постный,
Tag Consulting
Артем Артемов,
НИЦ СТРАТКОМ
Денис Свичкарь,
ПАО «Сбербанк»
Бхаскар Багчи, Angelsdeck
Максим Яцкевич, Road.Travel
Наличие точной пиксельной разметки является важным условием для обучения алгоритмов сегментации. На практике органы на медицинских КТ и МРТ изображениях могут быть заданы шумно или слабо – то есть, не масками с точно обозначенными границами, а в виде многоугольников или ограничивающих рамок. В докладе будет описано несколько методов более эффективного обучения алгоритмов сегментации на плохо размеченных данных, разработанных в исследовательской лаборатории Philips.
В докладе мы обсудим, как краудсорсинг позволяет собирать разметку для нетривиальных задач на примере оценки качества поиска и обновления информации об организациях. Мы покажем, что сложность выполнения подобных заданий можно снизить благодаря специальным методам агрегации для текстовых, графических и субъективных данных. Затем мы представим открытую библиотеку Crowd-Kit, которая реализует популярные методы контроля качества в краудсорсинге и позволяет делать это легко и удобно.
Евгений Романов,
Фонд «Сколково»
Галина Добрякова,
ООО «Платформа Технологий»
Алексей Петровичев, ООО «Нейросканер»
Кирилл Партала,
BID Technologies
Дмитрий Степанов,
ООО «Системы компьютерного зрения»
Алексей Калиниченко, ФСИТИ