Генеративные модели в бизнесе
Natural Language Processing - разработка
Creative AI models design. New trends and applications.
Topology meets BERTology: Topological Data Analysis for the understanding of Transformers
Ирина Пионтковская,
Huawei Noah's Ark Lab
Мария Тихонова,
SberDevices, HSE
Overview of Controllable Text Style Transfer
Text Style Transfer is an important task in NLP, which aims to control certain attributes in the generated text, and to generate or paraphrase text in a specific style. This talk concentrates on a specific style transfer approach known as controllable text style transfer, where one aims to generate a text in a specific style by controlling the generation of a language model so that the generated text is written in a desired style. The presentation gives the broad overview of the controllable text style transfer methods, covering such approaches as CTLR, GeDi, ParaGeDI, FUDGE, DExperts, and CIAF, highlighting possible ways of the developing of this area of research.
Анастасия Семенова,
CleverData
Разбор и модификация TiSASRec
Процесс создание скрипта голосового робота-оператора предполагает ряд рутинных операций, которые выполняют обученные специалисты. Наш опыт создания подобных скриптов позволяет утверждать, что практически весь путь создания скрипта робота можно автоматизировать до магической кнопки "Создать скрипт", которая позволит без специальных знаний программировать робота для решения задач коммуникаций по телефону. Расскажем об экспериментах с AI генератором по автоматизации создания скрипта на базе реальных диалогов живых операторов с абонентами.
Система восприятия автономного грузовика для закрытых территорий
Алексей Воропаев,
Evocargo
Андрей Кузьминых,
Docet TI
Synthetic data: Learning self-driving cars in simulation
We apply topological data analysis (TDA) to speech classification problems and to the introspection of a pretrained transformer models, namely, BERT and RoBERTa in NLP area, and HuBERT for Speech data. Our results demonstrate that TDA is a promising new approach for speech and language analysis, especially for tasks that require structural prediction. We also show that topological features are able to reveal functional roles of Transformer heads; e.g., we find the heads capable to distinguish between pairs of sample sources (natural/synthetic) or voices without any downstream fine-tuning.
Алексей Постников,
Sber Robotics Laboratory
What can large sequential models bring to robotics?
Computer vision for an agrobot-manipulator for picking apples
Никита Андриянов,
Фин. Университет
Александр Нотченко, Deepcake
Generative AI for Creative Industries
Александр Платонов,
Poehali.ru
Практическое применение генеративных нейронных сетей в практике работы компаний должно получать конкретные прикладные реализации. В своем докладе мы показываем на примере работы крупного Digital агентства, каким образом современные генеративные нейронные сети, будучи дообученными на исторических, маркетинговых, аналитических и финансовых данных компании, могут стать нативным инструментарием для самых различных ролей внутри компании, будучи интегрированным во внутреннюю ERP систему. Покажем реальный опыт внедрения и постараемся оценить результат и оказанный эффект на бизнес компании, порассуждаем о развитии инструментария.
Разработка и практика применения инструментария на основе генеративных нейронных сетей в работе Digital-агентства
Владимир Новоселов, Realweb
Анастасия Мышкина, Realweb
«Делайте снимки и делитесь самыми прекрасными моментами» — это слоган Instagram, в котором говорится, что изображения являются доминирующим средством коммуникации в современных социальных сетях. Мы представляем технологию генерации изображений для социальных сетей, которая может помочь блогерам, которым ежедневно приходится создавать огромное количество визуального контента, чтобы поддерживать высокий уровень вовлеченности блога. Современные технологии генерации изображений в большинстве своем работают на основе на простого текстового (и/или визуального) «prompt»'а, который не позволяет учесть множество деталей, определяющих стиль блога и его тематику. Разработанный нами подход позволяет выполнять детальный анализ контента блога и использовать все полученные данные для создания нового контента, который семантически близок к оригиналу, с возможностью варьирования близости стилей оригинального и сгенерированного визуального контента.
Генерация изображений для социальных сетей
Светлана Коробкова, Docet TI
Доклад представляет опыт, полученный в ходе разработки робота для сбора яблок. Особое внимание уделяется системе компьютерного зрения для обнаружения яблок. Также поговорим о системе позиционирования относительно камеры и робота манипулятора. При этом сравнивается несколько стерео камер, такие как Intel Real Sense Depth Camera D415/D455 и ZED2. Какая погрешность при оценке координат, зачем здесь Интернет вещей и как удалось добиться полноты на уровне 95%. Будет и про проблемы, и про сложности, а также про радость от первого сорванного яблока.
This talk will explore the ways in which generative artificial intelligence (AI) is being used to augment and enhance the creative process in a variety of industries. The talk will cover the basics of generative AI, including some history, key concepts, and current state of the art. We will discuss specific applications of generative AI in fields such as music, film, and video games. I'll share some nuances of adapting conventional ML lifecycle to fit the requirements of creative industries, and how we overcame them at Deepcake. Overall, I'll try to provide a comprehensive understanding of the role of generative AI in the creative industries and its potential to shape the future of creativity and innovation from perspective of AI startup in the field.
The talk will cover one of the main topics in the international AI community - Creative Artificial Intelligence. First, I will speak about the task itself and its history, how we started with classic CV tasks and proceeded to text2image models. Further I will describe the main trends in multimedia data synthesis in 2022-2023 and observe current SoTA architectures, giving a brief description of our diffusion-based text2image model Kandinsky 2.0. After that we will speak about different applications of Creative AI today and in the nearest future in terms of my vision. And finally I will show how we proceed in Creative AI for high fidelity face swap on images and video, describe our current SoTA solution - the GHOST model, and show our marketing applications in movie production, advertising, etc.
Расскажу про реализацию системы восприятия на основе лидаров и камер в нашем беспилотном грузовике. Расскажу, как мы преодолели ограничения промышленного вычислителя для эксплуатации на объектах заказчиков.
The development of self-driving cars has been a major focus in the field of artificial intelligence. To achieve this goal, large amounts of data are required for training machine learning algorithms. However, collecting and labeling real-world data can be time-consuming and expensive. To overcome these challenges, this paper proposes using synthetic data for learning self-driving cars, including the ability to generate unlimited amounts of diverse and controllable data. We developed a solution for efficient and stable integration of RLLib with Carla simulator. We present end2end solution for learning self-driving cars in Carla simulation environment with GYM-interface. The results demonstrate the effectiveness of using synthetic data in training RL-agents for autonomous vehicles. The findings suggest that synthetic data has the potential to significantly accelerate the deployment of self-driving cars by providing a cost-effective and scalable solution for training machine learning models.
This presentation provides an overview of the current state of robotics and the latest developments in the application of large sequential models (such as GPT-3) to the field. The focus is on how these models can enhance the capabilities of robots and enable them to perform a wider range of tasks and interact with humans in new ways. The talk covers the latest trends in the field, including new models, such as SayCan, that are designed to enable more natural human-robot interaction, as well as the potential benefits and challenges of using large language models in robotics. The presentation concludes by exploring some of the future directions and opportunities in this rapidly evolving field.