Când și de ce să vă standardizați datele?

Source: 365DATASCIENCE.COM

Standardizarea este o tehnică importantă care se realizează în cea mai mare parte ca etapă de preprocesare înainte de multe modele de Machine Learning, pentru a standardiza gama de caracteristici ale setului de date de intrare.

Câțiva dezvoltatori ML au tendința de a-și standardiza orbește datele înainte de „fiecare” model de Machine Learning, fără a face efortul de a înțelege de ce trebuie să fie folosită sau chiar dacă este necesară sau nu. Așadar, scopul acestei postări este de a explica cum, de ce și când să standardizăm datele.

Standardizarea

Standardizarea intră în scenă atunci când caracteristicile setului de date de intrare au diferențe mari între intervalele lor, sau pur și simplu atunci când sunt măsurate în unități de măsură diferite (de exemplu, Livre, Metri, Mile … etc.).

Aceste diferențe în intervalele caracteristicilor inițiale cauzează probleme multor modele de învățare automată. De exemplu, pentru modelele care se bazează pe calculul distanțelor, dacă una dintre caracteristici are o gamă largă de valori, distanța va fi guvernată de această caracteristică particulară.

Pentru a ilustra acest lucru cu un exemplu : să spunem că avem un set de date bidimensionale cu două caracteristici, Înălțime în metri și Greutate în lire, care variază de la Metri și, respectiv, Lire. Indiferent de modelul bazat pe distanțe pe care îl efectuați pe acest set de date, caracteristica Greutate va domina asupra caracteristicii Înălțime și va avea o contribuție mai mare la calculul distanței, doar pentru că are valori mai mari în comparație cu Înălțimea. Așadar, pentru a preveni această problemă, soluția este transformarea caracteristicilor în scări comparabile folosind standardizarea.

Cum se standardizează datele?

Z-score

Z-score este una dintre cele mai populare metode de standardizare a datelor și poate fi realizată prin scăderea mediei și împărțirea la deviația standard pentru fiecare valoare a fiecărei caracteristici.

După ce standardizarea este realizată, toate caracteristicile vor avea o medie de zero, o abatere standard de unu și, astfel, aceeași scală.

Există și alte metode de standardizare, dar de dragul simplității, în această poveste mă mulțumesc cu metoda Z-score.

Când să standardizăm datele și de ce?

După cum s-a văzut mai sus, pentru modelele bazate pe distanțe, standardizarea se realizează pentru a împiedica caracteristicile cu intervale mai largi să domine metrica distanței. Dar motivul pentru care standardizăm datele nu este același pentru toate modelele de învățare automată și diferă de la un model la altul.

Atunci, înainte de ce modele și metode de ML trebuie să vă standardizați datele și de ce?

1- Înainte de PCA:

În Analiza componentelor principale, caracteristicile cu varianțe mari/intervale largi, primesc mai multă greutate decât cele cu varianță mică și, în consecință, ajung să domine în mod ilegitim primele componente principale (componentele cu varianță maximă). Am folosit cuvântul „în mod ilegitim” aici, deoarece motivul pentru care aceste caracteristici au variații mari în comparație cu celelalte este doar pentru că au fost măsurate la scări diferite.

Standardizarea poate preveni acest lucru, acordând aceeași pondere tuturor caracteristicilor.

2- Înainte de Clusterizare:

Modelele de clusterizare sunt algoritmi bazați pe distanțe, pentru a măsura similitudinile dintre observații și a forma clustere, acestea folosesc o metrică de distanță. Astfel, caracteristicile cu distanțe mari vor avea o influență mai mare asupra clusterizării. Prin urmare, este necesară standardizarea înainte de a construi un model de grupare.

3- Înainte de KNN:

k-nearest neighbors este un clasificator bazat pe distanță care clasifică noile observații pe baza unor măsuri de similaritate (de exemplu, metrici de distanță) cu observațiile etichetate din setul de instruire. Standardizarea face ca toate variabilele să contribuie în mod egal la măsurile de similaritate .

4- Before SVM

Support Vector Machine încearcă să maximizeze distanța dintre planul de separare și vectorii suport. Dacă o caracteristică are valori foarte mari, aceasta va domina asupra altor caracteristici la calcularea distanței. Așadar, standardizarea conferă tuturor caracteristicilor aceeași influență asupra metricii distanței.

Sursa: Arun Manglick: arun-aiml.blogspot.com

5- Înainte de a măsura importanța variabilelor în modelele de regresie

Puteți măsura importanța variabilelor în analiza de regresie, prin ajustarea unui model de regresie folosind variabilele independente standardizate și comparând valoarea absolută a coeficienților lor standardizați. Dar, dacă variabilele independente nu sunt standardizate, compararea coeficienților lor devine lipsită de sens.

6- Înainte de regresia Lasso și Ridge

Regresiile LASSO și Ridge aplică o penalizare asupra mărimii coeficienților asociați fiecărei variabile. Iar scara variabilelor va afecta cât de multă penalizare va fi aplicată asupra coeficienților lor. Deoarece coeficienții variabilelor cu varianță mare sunt mici și, prin urmare, mai puțin penalizați. Prin urmare, este necesară standardizarea înainte de a ajusta ambele regresii.

Cazuri în care nu este necesară standardizarea?

Regresia logistică și modelele bazate pe arbori

Regresia logistică și algoritmii bazați pe arbori, cum ar fi Decision Tree, Random forest și gradient boosting, nu sunt sensibili la magnitudinea variabilelor. Așadar, standardizarea nu este necesară înainte de a monta acest tip de modele.

Încheierea standardizării datelor

Așa cum am văzut în această postare, când să standardizați și când nu, depinde de modelul pe care doriți să îl utilizați și ce doriți să faceți cu el. Așadar, este foarte important pentru un dezvoltator ML să înțeleagă funcționarea internă a algoritmilor de învățare automată, pentru a putea ști când să standardizeze datele și pentru a construi un model de învățare automată de succes.

N.B: Lista de modele și metode când este necesară standardizarea, prezentată în această postare nu este exhaustivă.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.