Le détecteur en temps réel voit la main poser et suivre plusieurs personnes – ScienceDaily


Les chercheurs de l'Institut de Robotique de l'Université Carnegie Mellon ont permis à un ordinateur de comprendre les poses et les mouvements de multiples personnes de la vidéo en temps réel – y compris, Pour la première fois, la pose des doigts de chaque individu.

Cette nouvelle méthode a été développée avec l'aide du Panoptic Studio, un dôme de deux étages intégré à 500 caméras vidéo. Les idées acquises lors des expériences dans cette installation permettent maintenant de détecter la pose d'un groupe de personnes utilisant une seule caméra et un ordinateur portable.

Yaser Sheikh, professeur agrégé de robotique, a déclaré que ces méthodes de suivi de la forme humaine et du mouvement 2-D ouvrent de nouvelles façons pour que les personnes et les machines interagissent les unes avec les autres et que les gens utilisent des machines pour mieux comprendre le monde qui les entoure . La capacité de reconnaître les poses de la main, par exemple, permettra aux personnes d'interagir avec les ordinateurs de façon nouvelle et plus naturelle, comme la communication avec les ordinateurs en montrant simplement les choses.

Détecter les nuances de la communication non verbale entre les individus permettra aux robots de servir dans les espaces sociaux, permettant aux robots de percevoir ce que les gens autour d'eux font, de leur humeur et de leur interruption. Une voiture auto-conduisant pourrait obtenir un avertissement précoce qu'un piéton est sur le point d'entrer dans la rue en surveillant le langage corporel. L'activation des machines pour comprendre le comportement humain pourrait également permettre de nouvelles approches du diagnostic comportemental et de la réadaptation pour des affections telles que l'autisme, la dyslexie et la dépression.

"Nous communiquons presque autant avec le mouvement de notre corps que nous le faisons avec notre voix", a déclaré Sheikh. "Mais les ordinateurs sont plus ou moins aveugles."

En analyse sportive, la détection de pose en temps réel permettra aux ordinateurs non seulement de suivre la position de chaque joueur sur le terrain de jeu, comme c'est le cas maintenant, mais aussi de savoir ce que les joueurs font avec leurs bras , Les jambes et les têtes à chaque moment. Les méthodes peuvent être utilisées pour des événements en direct ou appliquées à des vidéos existantes.

Pour encourager davantage de recherches et d'applications, les chercheurs ont publié leur code informatique à la fois pour l'estimation multipersonnelle et la pose manuelle. Il est déjà largement utilisé par les groupes de recherche, et plus de 20 groupes commerciaux, y compris les entreprises automobiles, ont exprimé leur intérêt à accorder des licences sur la technologie, a déclaré Sheikh.

Sheikh et ses collègues présenteront des rapports sur leurs méthodes de détection de multipersonnes et de poses manuelles à CVPR 2017, Conférence sur la vision et la reconnaissance des modèles, du 21 au 26 juillet à Honolulu.

Le suivi de plusieurs personnes en temps réel, en particulier dans les situations sociales où elles peuvent être en contact les uns avec les autres, présente un certain nombre de défis. Il suffit d'utiliser des programmes qui suivent la pose d'un individu qui ne fonctionne pas bien lorsqu'il est appliqué à chaque individu dans un groupe, en particulier lorsque ce groupe devient grand. Sheikh et ses collègues ont adopté une approche ascendante, qui localise d'abord toutes les parties du corps dans une scène – bras, jambes, visages, etc. – et associe ces parties à des individus particuliers.

Les défis pour la détection des mains sont encore plus importants. Comme les gens utilisent leurs mains pour contenir des objets et faire des gestes, une caméra est peu susceptible de voir toutes les parties de la main en même temps. Contrairement au visage et au corps, de grands ensembles de données n'existent pas d'images à la main qui ont été laborieusement annotées avec des étiquettes de pièces et de positions.

Mais pour chaque image qui ne montre qu'une partie de la main, il existe souvent une autre image sous un angle différent avec une vue complète ou complémentaire de la main, a déclaré Hanbyul Joo, Ph.D. Étudiant en robotique. C'est là que les chercheurs ont utilisé le multicaméra Panoptic Studio de CMU.

"Un seul coup vous donne 500 vues de la main d'une personne, plus elle annote automatiquement la position de la main", a expliqué Joo. "Les mains sont trop petites pour être annotées par la plupart de nos caméras, mais pour cette étude, nous avons utilisé seulement 31 caméras haute définition, mais avons encore pu construire un ensemble de données massives".

Joo et Tomas Simon, un autre Ph.D. Étudiant, ont utilisé leurs mains pour générer des milliers de vues.

"Le Panoptic Studio surcharge notre recherche", a déclaré Sheikh. Il est maintenant utilisé pour améliorer les détecteurs de corps, de visage et de main en les formant conjointement. En outre, à mesure que le travail progresse pour passer des modèles 2-D des humains aux modèles 3-D, la capacité de l'installation à générer automatiquement des images annotées sera cruciale.

Lorsque le Panoptic Studio a été construit il y a une décennie avec le soutien de la National Science Foundation, il n'était pas clair quel impact il aurait, a déclaré Sheikh.

"Maintenant, nous sommes en mesure de franchir un certain nombre d'obstacles techniques principalement en raison de cette subvention NSF il y a 10 ans", a-t-il ajouté. "Nous partageons le code, mais nous partageons également toutes les données capturées dans Panoptic Studio."

Lire la suite (en anglais)

N'oubliez pas de voter pour cet article !
1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (No Ratings Yet)
Loading...

Vous aimerez aussi...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Font Resize
Contrast
Aller à la barre d’outils