Détection efficace de visages à l'aide de propositions de régions basées sur l'audio

Aris, William

doi:http://hdl.handle.net/11143/21631

View/Open

Mémoire (2.045Mb)

Publication date

2024

Author(s)

Aris, William

Subject

Traitement multimodal

Vision

Audio

Apprentissage machine

Robotique

Show full document record

Abstract

Le traitement d'images en robotique est un élément essentiel pour de nombreuses applications. Toutefois, les techniques traditionnelles utilisées impliquent souvent une charge de calcul importante. En effet, la plupart des méthodes nécessitent de traiter l'intégralité du champ visuel, ce qui peut rapidement devenir problématique lorsque les images sont de tailles considérables. Le traitement audio, d'un autre côté, est d'une complexité plus faible, tout en offrant une certaine redondance d'information avec la vision sur le plan sémantique ainsi que spatial. Ce mémoire présente donc des travaux réalisés dans le but de vérifier s'il est possible d'améliorer l'efficacité du traitement d'images en exploitant l'information sonore pour déterminer des régions d'intérêt dans les images optiques. Afin que l'étendue de la recherche demeure raisonnable dans le cadre d'une maîtrise, les travaux ont été réalisés sur le cas plus spécifique de la détection de visages. La détection de visages est un cas d'étude intéressant, car il est central aux interactions humain-robot et il s'agit d'un scénario suffisamment représentatif pour formuler des conclusions valides pour d'autres cas d'applications. Pour réaliser le travail, un mécanisme d'attention spécifique à la voix a été développé. Ce dernier utilise principalement des réseaux de neurones récurrents pour rehausser la qualité du signal audio avant d'exploiter un algorithme formateur de faisceaux pour générer une image acoustique et déterminer la direction d'arrivée de la voix sur l'image optique. Une région d'intérêt est ensuite déterminée à partir de la direction d'arrivée de la voix et le mécanisme de détection de visages n'a alors qu'à traiter cette zone. Le système a été évalué en comparant les performances avec et sans mécanisme d'attention d'un système de détection de visages existant, soit YuNet. Dans le cas sans mécanisme d'attention, YuNet devait traiter des images complètes d'une taille de 640x480 pixels. Dans le cas avec mécanisme d'attention, la chaîne de traitement audio déterminait d'abord une zone d'intérêt de 250x250 pixels et YuNet traitait seulement cette zone. En validant le système, il a été possible de constater une réduction du temps de calcul par un facteur de 1,92 et une réduction du nombre d'opérations en point flottant par un facteur de 2,80. Ainsi, la piste explorée représente une avenue prometteuse pour accélérer le traitement multimodal temps réel en robotique.

URI

http://hdl.handle.net/11143/21631

Collection

Moissonnage BAC [4774]
Génie – Mémoires [2117]

The following license files are associated with this document:

Creative Commons