By Rean Neil Luces
Mallmatchning är ett viktigt ämne inom Artificiell intelligens (AI) eftersom det är ett av tillvägagångssätten för att lösa det grundläggande problemet med bildbehandling, som är att lokalisera region av intresse. Den hittar var ett visst objekt finns i den givna bilden. Den har ett brett spektrum av tillämpningar, t.ex. objektsdetektering, spårning, övervakning, medicinsk avbildning och bildsömnad.
Mallmatchning består också av två huvudkomponenter: källbilden och mallbilden eller patchen. Källbilden är den bild där vi förväntar oss att hitta en matchning med mallbilden, medan mallbilden är den lappbild som kommer att jämföras med underbilden i källbilden.
De två allmänna klassificeringarna av mall- eller bildmatchning är mallbaserad och funktionsbaserad. Det mallbaserade tillvägagångssättet, även känt som det områdesbaserade tillvägagångssättet, fungerar mycket bra när mallar inte har några starka särdrag med en bild eftersom de opererar direkt på pixelvärdena. Matchningar mäts med hjälp av intensitetsvärdena för både bilden och mallen. Å andra sidan används det funktionsbaserade tillvägagångssättet när både käll- och mallbilderna innehåller mer överensstämmelse med avseende på funktioner och kontrollpunkter. I det här fallet inkluderar funktioner punkter, kurvor eller en ytmodell för att utföra mallmatchning.
Mallbaserat tillvägagångssätt
Det mallbaserade tillvägagångssättet är lättare att genomföra än det funktionsbaserade. Enkel mallmatchning innebär att mallbilden jämförs med källbilden genom att den skjuts. Mallbilden flyttas en pixel i taget från vänster till höger eller uppifrån och ner för att göra det möjligt att beräkna ett visst numeriskt mått på likheten med den fläck som den överlappar. Båda bilderna omvandlas till binära bilder eller till svartvitt och sedan tillämpas tekniker för mallmatchning som normaliserad korskorrelation, korskorrelation och summan av den kvadratiska skillnaden.
En av utmaningarna med det mallbaserade tillvägagångssättet är skalinvarians. Förändringar i storleken på källbilden eller mallbilden kommer att påverka algoritmens prestanda. Ett enkelt knep för att lösa problemet är att ändra storleken på mallbilden till flera skalor och sedan jämföra den med källbilden. Efter att ha gått igenom alla storlekar tar du regionen med den största korrelationskoefficienten och använder den som din ”matchade” region. Rotationsinvariansen är dock svår att lösa med detta tillvägagångssätt. Därför utvecklade Kim, Hae & Araújo, Sidnei (2007) algoritmen Ciratefi för att lösa rotationsproblemet genom att förbättra brute force-algoritmen som innebär att mallbilden roteras i varje vinkel. Ciratefi-algoritmen är 400 gånger snabbare än brute force-algoritmen och får samma resultat.
Feature-based Approach
Bildfunktioner, såsom kanter och intressepunkter, ger riklig information om bildens innehåll. Lokala funktioner och deras deskriptorer är byggstenarna i många algoritmer för datorseende. De används bland annat för bildregistrering, objektdetektering och klassificering, spårning och rörelsebedömning. Dessa egenskaper är exklusiva för varje bild och hjälper därför till att identifiera olika bilder. Funktionerna i en bild kommer att finnas kvar även om storlek och orientering ändras, så tillvägagångssättet kan visa sig vara ytterligare användbart om matchningen i sökbilden omvandlas på något sätt. Det här tillvägagångssättet är också effektivare att använda om bilden har en hög upplösning. Att glida din mallbild i en stor källbild en pixel i taget och upprepa det i olika skalor blir beräkningsmässigt dyrt.
Featurebaserad mallmatchning omfattar fyra huvudsteg. De två första stegen är upptäckt av funktioner och extraktion av funktioner. SIFT (Scale Invariant Feature Transform) och SURF (Speeded Up Robust Feature) är mest användbara för att upptäcka och matcha funktioner eftersom de är invarianta mot skala, rotation, translation, belysning och oskärpa. Efter detektering och extraktion av funktioner är nästa steg matchning av funktioner med hjälp av Fast Library for Approximate Nearest Neighbors (FLANN). Det innehåller en samling algoritmer som är optimerade för snabb sökning efter närmaste grannar i stora datamängder och högdimensionella funktioner. Av de matchande funktioner som samlas in av FLANN-matcharen väljs goda matchningar ut baserat på Lowes kvottest. Efter filtrering av funktionspunkter är nästa steg att beräkna homografin genom RANSAC-algoritmen (RANdom SAmple Consensus).
Detta tillvägagångssätt kan dock inte användas när bilderna har färre funktioner eller när olika objekt delar samma funktioner, eftersom algoritmen inte kommer att hitta mallen i källbilden.