By Rean Neil Luces
La correspondance de modèles est un sujet important dans le domaine de l’intelligence artificielle (IA) car c’est l’une des approches du problème de base du traitement d’images qui est la localisation de la région d’intérêt. Elle permet de trouver où se trouve un certain objet dans une image donnée. Elle a un large éventail d’applications telles que la détection d’objets, le suivi, la surveillance, l’imagerie médicale et l’assemblage d’images.
La correspondance de modèles comprend également deux composants principaux : l’image source et l’image modèle ou le patch. L’image source est l’image dans laquelle on s’attend à trouver une correspondance avec l’image modèle, tandis que l’image modèle est l’image patch qui sera comparée à la sous-image de l’image source.
Les deux classifications générales de la correspondance de modèles ou d’images sont basées sur les modèles et sur les caractéristiques. L’approche basée sur les gabarits, également connue sous le nom d’approche basée sur les zones, fonctionne très bien lorsque les gabarits n’ont pas de caractéristiques fortes avec une image puisqu’ils opèrent directement sur les valeurs des pixels. Les correspondances sont mesurées en utilisant les valeurs d’intensité de l’image et du modèle. D’autre part, l’approche basée sur les caractéristiques est utilisée lorsque les images de la source et du modèle contiennent plus de correspondance en ce qui concerne les caractéristiques et les points de contrôle. Dans ce cas, les caractéristiques comprennent des points, des courbes ou un modèle de surface pour effectuer la correspondance de gabarit.
Approche basée sur le gabarit
L’approche basée sur le gabarit est plus facile à mettre en œuvre que celle basée sur les caractéristiques. La mise en correspondance simple de modèles consiste à comparer l’image modèle à l’image source en la faisant glisser. L’image modèle est déplacée d’un pixel à la fois, de gauche à droite ou de haut en bas, pour permettre de calculer une certaine mesure numérique de la similarité avec le patch qu’elle recouvre. Les deux images sont converties en images binaires ou en noir et blanc, puis des techniques de comparaison de gabarits comme la corrélation croisée normalisée, la corrélation croisée et la somme des différences au carré sont appliquées.
L’un des défis de l’approche basée sur les gabarits est l’invariance d’échelle. Les changements de taille de l’image source ou de l’image modèle affecteront la performance de l’algorithme. Une astuce simple pour résoudre ce problème consiste à redimensionner l’image modèle à plusieurs échelles, puis à la comparer à l’image source. Après avoir parcouru en boucle toutes les tailles, prenez la région présentant le plus grand coefficient de corrélation et utilisez-la comme région « appariée ». Cependant, l’invariance de rotation est difficile à résoudre par cette approche. Kim, Hae & Araújo, Sidnei (2007) a donc développé l’algorithme Ciratefi pour résoudre le problème de rotation en améliorant l’algorithme de force brute qui implique la rotation de l’image modèle à chaque angle. L’algorithme Ciratefi est 400 fois plus rapide que l’algorithme de force brute et obtient les mêmes résultats.
Approche basée sur les caractéristiques
Les caractéristiques de l’image, telles que les bords et les points d’intérêt, fournissent des informations riches sur le contenu de l’image. Les caractéristiques locales et leurs descripteurs sont les éléments constitutifs de nombreux algorithmes de vision par ordinateur. Leurs applications comprennent le recalage d’images, la détection et la classification d’objets, le suivi et l’estimation du mouvement. Ces caractéristiques sont exclusives à chaque image et aident donc à l’identification entre les images. Les caractéristiques d’une image sont conservées même en cas de changement de taille et d’orientation, de sorte que l’approche peut s’avérer encore plus utile si la correspondance dans l’image recherchée est transformée d’une manière ou d’une autre. Cette approche est également plus efficace si l’image a une grande résolution. Faire glisser votre image modèle dans une grande image source un pixel à la fois et le répéter à différentes échelles sera coûteux en calcul.
La correspondance de modèles basée sur les caractéristiques comprend quatre étapes principales. Les deux premières étapes sont la détection des caractéristiques et l’extraction des caractéristiques. SIFT (Scale Invariant Feature Transform) et SURF (Speeded Up Robust Feature) sont les plus utiles pour détecter et faire correspondre les caractéristiques car ils sont invariants à l’échelle, à la rotation, à la translation, à l’illumination et au flou. Après la détection et l’extraction des caractéristiques, l’étape suivante est la mise en correspondance des caractéristiques à l’aide de Fast Library for Approximate Nearest Neighbors (FLANN). Elle contient une collection d’algorithmes optimisés pour la recherche rapide des plus proches voisins dans les grands ensembles de données et les caractéristiques de haute dimension. Parmi les caractéristiques correspondantes recueillies par l’outil FLANN, les bonnes correspondances sont sélectionnées sur la base du test du ratio de Lowe. Après avoir filtré les points de caractéristiques, l’étape suivante consiste à calculer l’homographie par le biais de l’algorithme RANdom SAmple Consensus (RANSAC).
Cette approche, cependant, ne peut pas être utilisée lorsque les images ont moins de caractéristiques ou que différents objets partagent les mêmes caractéristiques car l’algorithme ne parviendra pas à trouver le modèle dans l’image source.