В этом докладе представлена комплексная система для анализа инцидентов в реальном времени с использованием нескольких камер, работающая в условиях жестких ограничений по задержке и ресурсам, характерных для промышленных периферийных развертываний. Ключевой особенностью системы является ее способность одновременно обрабатывать 100 потоков видео с камер в режиме реального времени на одном графическом процессоре A100-80GB и обнаруживать конкретный инцидент: выпадение груза рабочими или погрузчиками во время погрузки/разгрузки. Система непрерывно сканирует видеопоток, находит 40-кадровый сегмент, содержащий инцидент падения груза, передает его оператору для проверки и записывает в специальный отчет для статистического анализа и последующего принятия решений.
Сначала мы опишем практические проблемы, возникающие при обработке и анализе таких потоков:
A) Поток независимых каналов камер, которые необходимо синхронизировать в реальном времени с учетом пропускной способности сети;
B) Ограничения памяти графического процессора;
C) Обсуждение разреженных, нестационарных и смещенных данных, которые исключают возможность использования известных метрик на начальном этапе проекта;
D) Явления дрейфа камеры, требующие вспомогательных нейронных сетей для перенастройки датчиков;
E) Проблема определения строгой границы между «хорошим» и «плохим» качеством видеокадров;
F) Модель взаимодействия человека с обратной связью, работающая со скоростью менее секунды, с подробным описанием каркасов пользовательского интерфейса и конвейера обратной связи.
Во-вторых, мы предлагаем нейронный конвейер, который разделяет входящие кадры, классифицирует их по наличию действий, извлекает области интереса на уровне тайлов и применяет нейронную сеть с разделением каналов в качестве альтернативы 3D-сверткам для окончательной классификации тайлов, обеспечивая сквозную задержку менее 200 мс на экземпляре 10G MIG на одном графическом процессоре A100-80G.
В-третьих, мы подробно описываем рабочий процесс обработки данных: обучение сегментатора на полных кадрах, маркировка объектов на уровне тайлов с помощью пользовательского веб-инструмента и замыкание цикла активного обучения в замкнутом корпоративном контуре.
Наконец, мы определяем и непрерывно отслеживаем как бизнес-метрики (регрессия инцидента к ущербу, стоимость ложноотрицательных результатов, NPS оператора), так и технические метрики (например, процент выпадения кадров), одновременно отслеживая дрейф модели.
Доклад будет интересен как инженерам компьютерного зрения, так и представителям бизнеса, желающим доказать экономическую эффективность такой системы.