Wann und warum sollten Sie Ihre Daten standardisieren?

Source: 365DATASCIENCE.COM

Standardisierung ist eine wichtige Technik, die meist als Vorverarbeitungsschritt vor vielen Machine-Learning-Modellen durchgeführt wird, um den Bereich der Merkmale des Eingabedatensatzes zu standardisieren.

Einige ML-Entwickler neigen dazu, ihre Daten blind vor „jedem“ Machine-Learning-Modell zu standardisieren, ohne sich die Mühe zu machen, zu verstehen, warum es verwendet werden muss, oder sogar, ob es notwendig ist oder nicht. Ziel dieses Beitrags ist es, zu erklären, wie, warum und wann man Daten standardisieren sollte.

Standardisierung

Die Standardisierung kommt ins Spiel, wenn die Merkmale des Eingabedatensatzes große Unterschiede zwischen ihren Bereichen aufweisen, oder einfach, wenn sie in verschiedenen Maßeinheiten gemessen werden (z. B. Pfund, Meter, Meilen … usw.).

Diese Unterschiede in den Bereichen der ursprünglichen Merkmale verursachen bei vielen Machine Learning-Modellen Probleme. Wenn zum Beispiel eines der Merkmale einen großen Wertebereich hat, wird der Abstand von diesem speziellen Merkmal bestimmt.

Um dies anhand eines Beispiels zu verdeutlichen: Nehmen wir an, wir haben einen zweidimensionalen Datensatz mit zwei Merkmalen, Höhe in Metern und Gewicht in Pfund, die jeweils von Metern und Pfund reichen. Unabhängig davon, welches abstandsbasierte Modell man mit diesem Datensatz durchführt, wird das Merkmal „Gewicht“ gegenüber dem Merkmal „Größe“ dominieren und einen größeren Beitrag zur Abstandsberechnung leisten, einfach weil es im Vergleich zur Größe größere Werte hat. Um dieses Problem zu vermeiden, müssen die Merkmale mithilfe der Standardisierung in vergleichbare Maßstäbe umgewandelt werden.

Wie werden Daten standardisiert?

Z-Score

Der Z-Score ist eine der beliebtesten Methoden zur Standardisierung von Daten und kann durch Subtraktion des Mittelwerts und Division durch die Standardabweichung für jeden Wert jedes Merkmals ermittelt werden.

Nach der Standardisierung haben alle Merkmale einen Mittelwert von Null, eine Standardabweichung von Eins und somit die gleiche Skala.

Es gibt noch andere Standardisierungsmethoden, aber der Einfachheit halber entscheide ich mich in dieser Geschichte für die Z-Score-Methode.

Wann sollten Daten standardisiert werden und warum?

Wie oben gesehen, wird bei abstandsbasierten Modellen eine Standardisierung durchgeführt, um zu verhindern, dass Merkmale mit größeren Bereichen die Abstandsmetrik dominieren. Der Grund für die Standardisierung der Daten ist jedoch nicht für alle Modelle des maschinellen Lernens gleich und unterscheidet sich von Modell zu Modell.

Vor welchen ML-Modellen und -Methoden müssen Sie also Ihre Daten standardisieren und warum?

1- Vor der PCA:

Bei der Hauptkomponentenanalyse erhalten Merkmale mit hohen Varianzen/großen Bereichen mehr Gewicht als Merkmale mit geringer Varianz, und folglich dominieren sie unrechtmäßig die ersten Hauptkomponenten (Komponenten mit maximaler Varianz). Ich habe hier das Wort „unrechtmäßig“ verwendet, denn der Grund, warum diese Merkmale im Vergleich zu den anderen eine hohe Varianz haben, liegt einfach darin, dass sie in unterschiedlichen Skalen gemessen wurden.

Dies kann durch Standardisierung verhindert werden, indem allen Merkmalen die gleiche Gewichtung gegeben wird.

2- Vor dem Clustering:

Clustering-Modelle sind abstandsbasierte Algorithmen, um Ähnlichkeiten zwischen Beobachtungen zu messen und Cluster zu bilden, verwenden sie eine Abstandsmetrik. Daher haben Merkmale mit großen Reichweiten einen größeren Einfluss auf die Clusterbildung. Daher ist vor der Erstellung eines Clustering-Modells eine Standardisierung erforderlich.

3- Vor KNN:

k-nearest neighbors ist ein abstandsbasierter Klassifikator, der neue Beobachtungen auf der Grundlage von Ähnlichkeitsmaßen (z. B. Abstandsmetriken) mit markierten Beobachtungen der Trainingsmenge klassifiziert. Durch die Standardisierung tragen alle Variablen gleichermaßen zu den Ähnlichkeitsmaßen bei.

4- Before SVM

Support Vector Machine versucht, den Abstand zwischen der Trennebene und den Support-Vektoren zu maximieren. Wenn ein Merkmal sehr große Werte hat, wird es bei der Berechnung des Abstands gegenüber anderen Merkmalen dominieren. Die Standardisierung verleiht also allen Merkmalen den gleichen Einfluss auf die Abstandsmetrik.

Quelle: Arun Manglick: arun-aiml.blogspot.com

5- Vor der Messung der Variablenbedeutung in Regressionsmodellen

Sie können die Variablenbedeutung in der Regressionsanalyse messen, indem Sie ein Regressionsmodell mit den standardisierten unabhängigen Variablen anpassen und den Absolutwert ihrer standardisierten Koeffizienten vergleichen. Wenn die unabhängigen Variablen jedoch nicht standardisiert sind, wird der Vergleich ihrer Koeffizienten bedeutungslos.

6- Vor Lasso- und Ridge-Regression

LASSO- und Ridge-Regressionen setzen einen Malus auf die Größe der Koeffizienten, die jeder Variablen zugeordnet sind. Die Skala der Variablen wirkt sich darauf aus, wie stark der Malus auf ihre Koeffizienten angewendet wird. Denn die Koeffizienten von Variablen mit großer Varianz sind klein und werden daher weniger bestraft. Daher ist eine Standardisierung erforderlich, bevor beide Regressionen angepasst werden.

Fälle, in denen eine Standardisierung nicht erforderlich ist?

Logistische Regression und baumbasierte Modelle

Logistische Regression und baumbasierte Algorithmen wie Entscheidungsbaum, Random Forest und Gradient Boosting reagieren nicht auf die Größe der Variablen. Daher ist eine Standardisierung vor der Anpassung dieser Art von Modellen nicht erforderlich.

Abschließende Datenstandardisierung

Wie wir in diesem Beitrag gesehen haben, hängt es davon ab, welches Modell Sie verwenden möchten und was Sie damit tun wollen, wann Sie standardisieren und wann nicht. Daher ist es für einen ML-Entwickler sehr wichtig, die interne Funktionsweise von Algorithmen für maschinelles Lernen zu verstehen, um zu wissen, wann Daten standardisiert werden müssen und um ein erfolgreiches Modell für maschinelles Lernen zu erstellen.

N.B: Die in diesem Beitrag vorgestellte Liste von Modellen und Methoden, bei denen eine Standardisierung erforderlich ist, ist nicht vollständig.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.