Di Rean Neil Luces
La corrispondenza dei modelli è un argomento importante nel campo dell’intelligenza artificiale (AI) in quanto è uno degli approcci al problema di base dell’elaborazione delle immagini che è la localizzazione della regione di interesse. Trova dove si trova un certo oggetto nell’immagine data. Ha una vasta gamma di applicazioni come il rilevamento di oggetti, il tracciamento, la sorveglianza, l’imaging medico e la cucitura di immagini.
Il template matching comprende anche due componenti principali: l’immagine sorgente e l’immagine modello o la patch. L’immagine sorgente è l’immagine in cui ci aspettiamo di trovare una corrispondenza con l’immagine modello, mentre l’immagine modello è l’immagine patch che sarà confrontata con la sotto-immagine dell’immagine sorgente.
Le due classificazioni generali di corrispondenza di modelli o immagini sono basate su modelli e su caratteristiche. L’approccio basato sul modello, noto anche come approccio basato sull’area, funziona molto bene quando i modelli non hanno caratteristiche forti con un’immagine, poiché operano direttamente sui valori dei pixel. Le corrispondenze sono misurate usando i valori di intensità sia dell’immagine che del modello. D’altra parte, l’approccio basato sulle caratteristiche viene utilizzato quando sia l’immagine sorgente che quella modello contengono più corrispondenza rispetto alle caratteristiche e ai punti di controllo. In questo caso, le caratteristiche includono punti, curve o un modello di superficie per eseguire la corrispondenza del modello.
Approccio basato sul modello
L’approccio basato sul modello è più facile da implementare di quello basato sulle caratteristiche. La semplice corrispondenza del modello consiste nel confrontare l’immagine modello con l’immagine sorgente facendola scorrere. L’immagine modello viene spostata di un pixel alla volta da sinistra a destra o dall’alto in basso per permettere di calcolare una qualche misura numerica di somiglianza con la patch che si sovrappone. Entrambe le immagini sono convertite in immagini binarie o in bianco e nero e poi vengono applicate tecniche di corrispondenza del modello come la correlazione incrociata normalizzata, la correlazione incrociata e la somma delle differenze quadrate.
Una delle sfide dell’approccio basato sul modello è l’invarianza di scala. I cambiamenti nelle dimensioni dell’immagine sorgente o dell’immagine modello influenzeranno le prestazioni dell’algoritmo. Un semplice trucco per risolvere il problema è quello di ridimensionare l’immagine modello in più scale e poi confrontarla con l’immagine sorgente. Dopo aver percorso tutte le dimensioni, prendete la regione con il più grande coefficiente di correlazione e usatela come regione “abbinata”. Tuttavia, l’invarianza di rotazione è difficile da risolvere con questo approccio. Con questo, Kim, Hae & Araújo, Sidnei (2007) ha sviluppato l’algoritmo Ciratefi per risolvere il problema della rotazione migliorando l’algoritmo della forza bruta che comporta la rotazione dell’immagine modello ad ogni angolo. L’algoritmo Ciratefi è 400 volte più veloce dell’algoritmo della forza bruta e ottiene gli stessi risultati.
Approccio basato sulle caratteristiche
Le caratteristiche dell’immagine, come i bordi e i punti di interesse, forniscono una ricca informazione sul contenuto dell’immagine. Le caratteristiche locali e i loro descrittori sono gli elementi costitutivi di molti algoritmi di computer vision. Le loro applicazioni includono la registrazione dell’immagine, il rilevamento e la classificazione degli oggetti, il tracciamento e la stima del movimento. Queste caratteristiche sono esclusive per ogni immagine e quindi aiutano nell’identificazione tra le immagini. Le caratteristiche di un’immagine rimangono anche se c’è un cambiamento nelle dimensioni e nell’orientamento, quindi l’approccio può rivelarsi ulteriormente utile se la corrispondenza nell’immagine di ricerca viene trasformata in qualche modo. Questo approccio è anche più efficiente da usare se l’immagine ha una grande risoluzione. Far scorrere l’immagine modello in un’immagine sorgente di grandi dimensioni un pixel alla volta e ripeterlo in diverse scale sarà computazionalmente costoso.
La corrispondenza modello basata sulle caratteristiche include quattro passi principali. I primi due passi sono il rilevamento delle caratteristiche e l’estrazione delle caratteristiche. SIFT (Scale Invariant Feature Transform) e SURF (Speeded Up Robust Feature) sono più utili per rilevare e abbinare le caratteristiche perché sono invarianti a scala, rotazione, traduzione, illuminazione e sfocatura. Dopo il rilevamento e l’estrazione delle caratteristiche, il passo successivo è la corrispondenza delle caratteristiche utilizzando Fast Library for Approximate Nearest Neighbors (FLANN). Contiene una collezione di algoritmi ottimizzati per la ricerca veloce del vicino più prossimo in grandi insiemi di dati e caratteristiche ad alta dimensione. Tra le caratteristiche corrispondenti raccolte da FLANN matcher, le buone corrispondenze sono selezionate in base al test del rapporto di Lowe. Dopo aver filtrato i punti delle caratteristiche, il passo successivo è quello di calcolare l’omografia attraverso l’algoritmo RANdom SAmple Consensus (RANSAC).
Questo approccio, tuttavia, non può essere utilizzato quando le immagini hanno meno caratteristiche o diversi oggetti condividono le stesse caratteristiche in quanto l’algoritmo non riuscirà a trovare il modello nell’immagine sorgente.