Comment peut-on arriver à comprendre le sens d’une image ou d’une vidéo? Voilà une question fascinante qui concerne un grand nombre de disciplines. L’objectif de la vision numérique cognitive est de développer des méthodes d’analyse et des logiciels permettant de progresser vers la compréhension automatique du sens des images et vidéos numériques. Nous voulons être un acteur structurant dans son développement. Notre programme de recherche vise des avancées durables. Nos travaux abordent des situations variées: objets transportés par des personnes, personnes en interaction et scènes d’intérieur et d’extérieur. Une méthodologie générique nous permet de développer des méthodes d’analyse robustes, efficaces et comparables autant au niveau des concepts que des résultats. Un aspect unificateur est l’attention accordée aux conditions d’observation. En particulier, les méthodes d’analyse doivent produire des résultats invariants, indépendamment du point de vue et des occultations spatiales et temporelles.
Pour le projet «Détection et identification des objets transportés par une personne», nous voulons aller au-delà des limitations des méthodes actuelles, en particulier lorsque l’objet transporté est en chevauchement partiel ou total avec la personne. De plus, nous visons une localisation précise de l’objet et une compréhension de sa forme et de sa structure. Nous profiterons des avancées du domaine pour la détection et la localisation des personnes dans les images et vidéos ainsi que pour le suivi des objets en mouvement. La modélisation de l’objet sera qualitative et générique. Les représentations utilisées seront inspirées de nos travaux passés sur des problématiques comparables.
Pour le projet «Catégorisation incertaine des interactions entre deux personnes», nous visons à catégoriser l’incertitude dans la classification d’une sous-séquence courte quelconque d’interactions typiques. Nous allons organiser des caractéristiques spatio-temporelles à haute valeur prédictive en fonction des protagonistes en interaction. Nous allons aussi intégrer la posture qualitative des protagonistes au cours de la séquence.
Finalement, pour le projet «Découverte des objets inattendus dans une ou plusieurs images», nous allons réduire l’ensemble des propositions d’objets identifiées préalablement à un objet principal modélisé par une carte de primitives de contour. Cette localisation précise de l’objet nous permettra ensuite d’effectuer l’apprentissage non supervisé de modèles d’objets invariants à l’échelle, au point de vue et aux occultations partielles. La catégorisation d’un objet inattendu dans une image passera par les mêmes étapes de localisation à un niveau abstrait suivi de la mise en correspondance des caractéristiques locales. Au cours des cinq années de la subvention, un total de sept étudiants travailleront sur ces trois projets.
Source: www.nserc-crsng.gc.ca/ase-oro/Details-Detailles_fra.asp?id=645259