Por Rean Neil Luces
La coincidencia de plantillas es un tema importante en el campo de la Inteligencia Artificial (IA) ya que es una de las aproximaciones al problema básico del procesamiento de imágenes que es localizar la región de interés. Encuentra dónde se encuentra un determinado objeto en la imagen dada. Tiene una amplia gama de aplicaciones, como la detección de objetos, el seguimiento, la vigilancia, las imágenes médicas y la costura de imágenes.
La correspondencia de plantillas también consta de dos componentes principales: la imagen de origen y la imagen de plantilla o el parche. La imagen de origen es la imagen en la que esperamos encontrar una coincidencia con la imagen de la plantilla, mientras que la imagen de la plantilla es la imagen del parche que se comparará con la subimagen de la imagen de origen.
Las dos clasificaciones generales de la coincidencia de plantillas o imágenes son las basadas en plantillas y las basadas en características. El enfoque basado en plantillas, también conocido como enfoque basado en áreas, funciona muy bien cuando las plantillas no tienen características fuertes con una imagen, ya que operan directamente en los valores de los píxeles. Las coincidencias se miden utilizando los valores de intensidad tanto de la imagen como de la plantilla. Por otro lado, el enfoque basado en las características se utiliza cuando tanto la imagen de origen como la plantilla contienen más correspondencia con respecto a las características y los puntos de control. En este caso, las características incluyen puntos, curvas o un modelo de superficie para realizar la comparación de plantillas.
Enfoque basado en plantillas
El enfoque basado en plantillas es más fácil de implementar que el basado en características. La coincidencia de plantillas simple consiste en comparar la imagen de la plantilla con la imagen de origen deslizándola. La imagen de la plantilla se desplaza un píxel cada vez de izquierda a derecha o de arriba a abajo para poder calcular alguna medida numérica de similitud con el parche al que se superpone. Ambas imágenes se convierten en imágenes binarias o en blanco y negro y, a continuación, se aplican técnicas de comparación de plantillas como la correlación cruzada normalizada, la correlación cruzada y la suma de la diferencia al cuadrado.
Uno de los retos del enfoque basado en plantillas es la invariabilidad de la escala. Los cambios en el tamaño de la imagen de origen o de la plantilla afectarán al rendimiento del algoritmo. Un truco sencillo para resolver el problema es cambiar el tamaño de la imagen de la plantilla a múltiples escalas y luego compararla con la imagen de origen. Después de pasar por todos los tamaños, tome la región con el mayor coeficiente de correlación y utilícela como región «coincidente». Sin embargo, la invariabilidad de la rotación es difícil de resolver con este enfoque. Por ello, Kim, Hae & Araújo, Sidnei (2007) desarrollaron el algoritmo Ciratefi para resolver el problema de la rotación mejorando el algoritmo de fuerza bruta que implica rotar la imagen de la plantilla en cada ángulo. El algoritmo Ciratefi es 400 veces más rápido que el algoritmo de fuerza bruta y obtiene los mismos resultados.
Enfoque basado en características
Las características de la imagen, como los bordes y los puntos de interés, proporcionan una rica información sobre el contenido de la imagen. Las características locales y sus descriptores son los componentes básicos de muchos algoritmos de visión por ordenador. Sus aplicaciones incluyen el registro de imágenes, la detección y clasificación de objetos, el seguimiento y la estimación del movimiento. Estas características son exclusivas de cada imagen y, por tanto, ayudan a la identificación entre imágenes. Las características de una imagen permanecerán incluso si hay un cambio de tamaño y orientación, por lo que el enfoque puede resultar más útil si la coincidencia en la imagen de búsqueda se transforma de alguna manera. Este enfoque también es más eficaz si la imagen tiene una gran resolución. Deslizar la imagen de la plantilla en una imagen fuente de gran tamaño un píxel cada vez y repetirlo en diferentes escalas será costoso desde el punto de vista computacional.
La coincidencia de plantillas basada en características incluye cuatro pasos principales. Los dos primeros pasos son la detección y la extracción de características. SIFT (Scale Invariant Feature Transform) y SURF (Speeded Up Robust Feature) son los más útiles para detectar y emparejar características porque son invariables a la escala, la rotación, la traslación, la iluminación y el desenfoque. Después de la detección y extracción de características, el siguiente paso es el emparejamiento de características utilizando la Biblioteca Rápida de Vecinos Cercanos Aproximados (FLANN). Contiene una colección de algoritmos optimizados para la búsqueda rápida de vecinos más cercanos en grandes conjuntos de datos y características de alta dimensión. De las características coincidentes reunidas por FLANN matcher, se seleccionan las buenas coincidencias basándose en la prueba de relación de Lowe. Después de filtrar los puntos de características, el siguiente paso es calcular la homografía a través del algoritmo RANdom SAmple Consensus (RANSAC).
Este enfoque, sin embargo, no puede utilizarse cuando las imágenes tienen menos características o diferentes objetos comparten las mismas características, ya que el algoritmo no podrá encontrar la plantilla en la imagen de origen.