Multi-object tracking is a fundamental task in video understanding.
While it is largely solved for simple motion, many real-world
scenarios—such as autonomous driving, sports, and dancing—involve
complex and irregular movement patterns. Most existing tracking
systems still depend on simple linear motion models and handcrafted,
domain-specific rules, which are inadequate for these scenarios.
Consequently, more advanced object-tracking methods are needed.
We present a set of improvements that address these shortcomings. In
particular, we introduce data-driven motion models that learn object
dynamics directly from data, enabling more accurate motion prediction
across diverse motion patterns and greater robustness to noisy object
detections in video frames. These models consistently outperform
classical motion models on datasets with complex motion, while also
reducing reliance on domain-specific design choices.
Building on learned motion modelling, object association across frames
is then treated as a supervised prediction problem: deciding whether a
new detection is a continuation of an existing trajectory. Instead of
using fixed rules, the system learns from data how to match new
detections to existing trajectories using simple geometric information
(e.g., bounding boxes) and, optionally, object appearance cues. On
datasets with nonlinear motion, this learned association outperforms
heuristic-based methods. Together, these improvements show that
replacing manually designed components with learned alternatives leads
to more robust and adaptable multi-object tracking systems.
Первые попытки автоматизации привели к созданию кода, который расходился с требованиями, содержал ошибки и увеличивал нагрузку на проверку. Агентный подход, не имеющий строгих указаний, приводил к ненадежным результатам. Прорыв произошел благодаря разработке, основанной на спецификациях, где структурированные спецификации становятся единственным источником истины.
Используя ***plain, язык разработки, основанной на спецификациях, Incode напрямую преобразует требования в работающее программное обеспечение, повторно использует модульные компоненты в разных интеграциях и автоматически обнаруживает неоднозначности и конфликты до генерации кода. Полностью автоматизированный конвейер рендеринга Codeplain — объединяющий структурированные спецификации, агент конечного автомата, LLM и непрерывную проверку тестов — рендерит, тестирует и проверяет каждое функциональное требование независимо и в целом. Это обеспечивает безопасность регрессионного анализа, точное исправление ошибок и гибкую итерацию.
Благодаря подходу к разработке, основанному на спецификациях, было полностью разработано двадцать интеграций, и теперь одна из них выпускается за один день вместо двух недель, без ручной проверки кода.