Tarantino пишет: |
Задачи оценки чего-либо на основе динамки, то есть когда не отдельные кадры, а именно сложное динамичное движение, да ещё и трёхмерное, они ещё очень плохо решаются. |
Немного в защиту технологий.
Трекинг игроков в футбол+мяча или хоккей+клюшки решался ещё 8 лет назад. Тогда же появились первые прототипы, определяющие позу человека и action recognition. Сегодня есть готовые решения, определяющие в риалтайме границы объектов и сегментирующие (ICNET, mask RCNN, YOLO), дающие части тела (deeppose, MS COCO), даже приближенно вычисляющие карту глубины по монокамере. И это только в риалтайме (вне риалтайма можно почти что угодно: восстановить в 3д позу и фигуру человека, обучить модель тому, что делает человек, см. SIGGRAPH Asia 2018: Skills from Videos). Есть стандартные подходы, которые можно заточить под конкретную задачу с лучшей точностью. Определить, куда смотрит конёк, сколько раз он повращался (хотя бы отн-но камеры), - это нормальная задача.
И то, что японцы отмечали вручную, на самом деле автоматизируемо, особенно если уже дан кадр отрыва/приземления. Но вроде японцы нигде не подписывались, что будут использовать самое технологичное решение. А с учетом того, что на разработку нужно время и размеченный датасет, и вероятность ошибки всё равно будет, отмечать вручную - вполне нормальное решение, в т.ч. с точки зрения затрат.