logo

Gini-Index im maschinellen Lernen

Einführung

Maschinelles Lernen hat die Art und Weise, wie wir Daten verarbeiten und untersuchen, verändert, und Entscheidungsbaumalgorithmen sind eine beliebte Lösung für Klassifizierungs- und Regressionsaufgaben. Der Gini-Index, auch Gini-Unreinheit oder Gini-Koeffizient genannt, ist ein wichtiges Maß für die Unreinheit, das in Entscheidungsbaumalgorithmen verwendet wird. In diesem Artikel werden wir die Idee des Gini-Index, seine numerische Formel und seine Anwendungen beim maschinellen Lernen eingehend untersuchen. Wir werden außerdem den Gini-Index und andere Verunreinigungsmaße gegenüberstellen, über seine Grenzen und Vorteile sprechen und kontextbezogene Analysen seiner realen Anwendungen untersuchen. Endlich stellen wir hier die künftigen Orientierungen für die Forschung vor.

Was ist der Gini-Index?

Der Gini-Index ist ein Anteil der Unreinheit oder Ungleichheit im statistischen und monetären Umfeld. Beim maschinellen Lernen wird es als Verunreinigungsmaß in Entscheidungsbaumalgorithmen für Klassifizierungsaufgaben verwendet. Der Gini-Index misst die Wahrscheinlichkeit, dass ein zufällig ausgewählter Test durch einen Entscheidungsbaumalgorithmus falsch klassifiziert wird, und sein Wert reicht von 0 (vollkommen rein) bis 1 (vollkommen unrein).

Gini-Index-Formel

Der Gini-Index ist ein Anteil der Verunreinigung oder Ungleichheit einer Zirkulation und wird regelmäßig als Verunreinigungsmaß in Entscheidungsbaumalgorithmen verwendet. Bei Entscheidungsbäumen wird der Gini-Index verwendet, um die beste Funktion zur Aufteilung der Daten an jedem Knoten des Baums zu bestimmen.

Die Formel für den Gini-Index lautet wie folgt:

Gini-Index im maschinellen Lernen

Dabei ist Pi die Wahrscheinlichkeit, dass ein Ding einen Platz in einer bestimmten Klasse hat.

Beispielsweise sollten wir ein binäres Klassifizierungsproblem mit zwei Klassen An und B betrachten. Für den Fall, dass die Wahrscheinlichkeit der Klasse An p und die Wahrscheinlichkeit der Klasse B (1-p) beträgt, kann der Gini-Index wie folgt berechnet werden :

Der Wert des Gini-Index reicht von 0,0 bis 0,5 für binäre Klassifizierungsprobleme, wobei 0,0 einen vollkommen reinen Knoten anzeigt (alle Beispiele haben einen Platz in einer ähnlichen Klasse) und 0,5 einen vollkommen unreinen Knoten zeigt (Tests sind gleichmäßig auf die beiden Klassen verteilt). ).

Verwendung des Gini-Index bei Klassifizierungsproblemen

Der Gini-Index wird im Allgemeinen als Verunreinigungsmaß in Entscheidungsbaumalgorithmen für Klassifizierungsprobleme verwendet. In Entscheidungsbäumen adressiert jeder Knoten ein Element, und das Ziel besteht darin, die Daten in Teilmengen aufzuteilen, die im Wesentlichen so rein sind, wie man es erwarten kann. Das Verunreinigungsmaß (wie der Gini-Index) wird verwendet, um die beste Aufteilung an jedem Knoten zu bestimmen.

Um dies zu veranschaulichen, sollten wir ein Beispiel eines Entscheidungsbaums für ein binäres Klassifizierungsproblem betrachten. Der Baum besteht aus zwei Elementen: Alter und Einkommen, und das Ziel besteht darin, vorherzusagen, ob eine Person wahrscheinlich einen Artikel kaufen wird. Der Baum wird unter Verwendung des Gini-Index als Maß für die Verunreinigung erstellt.

Am Wurzelknoten wird der Gini-Index im Hinblick auf die Wahrscheinlichkeit berechnet, dass die Beispiele einen Platz in Klasse 0 oder Klasse 1 haben. Der Knoten wird im Hinblick auf die Komponente aufgeteilt, die zu der stärksten Abnahme des Gini-Index führt. Dieser Zyklus wird für jede Teilmenge rekursiv wiederholt, bis eine Stoppmaßnahme erreicht ist.

Entscheidungsbäume

Ein Entscheidungsbaum ist ein bekannter Algorithmus für maschinelles Lernen, der sowohl für Klassifizierungs- als auch für Regressionsaufgaben verwendet wird. Ein Modell wird erstellt, indem der Datensatz im Hinblick auf die Werte der Informationshervorhebungen rekursiv in kleinere Teilmengen aufgeteilt wird, um die Verunreinigung der nachfolgenden Teilmengen zu begrenzen.

An jedem Knoten des Baums wird eine Entscheidung im Hinblick auf die Werte eines der Info-Highlights getroffen, mit dem Endziel, dass die nachfolgenden Teilmengen grundsätzlich so rein sind, wie man es tatsächlich erwarten kann. Die Reinheit einer Teilmenge wird regelmäßig durch ein Verunreinigungsmaß geschätzt, beispielsweise den Gini-Index oder die Entropie.

Der Entscheidungsbaumalgorithmus kann sowohl für binäre und mehrklassige Klassifizierungsaufgaben als auch für Regressionsaufgaben verwendet werden. Bei binären Klassifizierungsaufgaben teilt der Entscheidungsbaum den Datensatz anhand des Werts eines binären Merkmals, z. B. Ja oder Nein, in zwei Teilmengen auf. Bei Klassifizierungsaufgaben mit mehreren Klassen teilt der Entscheidungsbaum den Datensatz anhand der Werte eines direkten Merkmals wie Rot, Grün oder Blau in zahlreiche Teilmengen auf.

Gini-Index im Vergleich zu anderen Verunreinigungsmaßen

Neben dem Gini-Index gibt es noch andere Verunreinigungsmaße, die normalerweise in Entscheidungsbaumalgorithmen verwendet werden, beispielsweise Entropie und Informationsgewinn.

Entropie:

Beim maschinellen Lernen ist Entropie ein Anteil der Unregelmäßigkeit oder Schwachstelle in einer Datenmenge. Er wird im Allgemeinen neben dem Gini-Index als Verunreinigungsmaß in Entscheidungsbaumalgorithmen verwendet.

In Entscheidungsbaumalgorithmen wird die Entropie genutzt, um die beste Komponente zum Aufteilen der Daten an jedem Knoten des Baums zu bestimmen. Das Ziel besteht darin, das Element zu finden, das zu der größten Entropieabnahme führt, was sich auf die Komponente bezieht, die die meisten Informationen über das Klassifizierungsproblem liefert.

Gini-Index im maschinellen Lernen

Während Entropie und Gini-Index normalerweise beide als Verunreinigungsmaße in Entscheidungsbaumalgorithmen verwendet werden, haben sie verschiedene Eigenschaften. Die Entropie ist für die Zirkulation von Klassennamen empfindlicher und führt im Allgemeinen zu angepassteren Bäumen, während der Gini-Index weniger von der Aneignung von Klassennoten abhängt und im Allgemeinen begrenztere Bäume mit weniger Aufteilungen erzeugt. Die Entscheidung über das Verunreinigungsmaß hängt vom jeweiligen Problem und den Attributen der Daten ab.

Informationsgewinn:

Der Informationsgewinn ist eine Aktion, die dazu dient, die Art einer Aufteilung beim Aufbau eines Entscheidungsbaums zu beurteilen. Das Ziel eines Entscheidungsbaums besteht darin, die Daten in Teilmengen aufzuteilen, die grundsätzlich so homogen wie möglich für die Zielvariable sind, sodass der nachfolgende Baum verwendet werden kann, um genaue Erwartungen an neue Daten zu stellen. Der Informationsgewinn misst die durch eine Spaltung bewirkte Abnahme der Entropie oder Verunreinigung. Das Merkmal mit dem bemerkenswertesten Informationsgewinn wird als bestes Merkmal für die Aufteilung an jedem Knoten des Entscheidungsbaums ausgewählt.

Der Informationsgewinn ist normalerweise ein Maß für die Beurteilung der Art von Aufteilungen in Entscheidungsbäumen, es ist jedoch nicht das, worauf man sich konzentrieren sollte. Auch andere Messgrößen, beispielsweise der Gini-Index oder die Fehlklassifizierungsrate, können genutzt werden. Die Entscheidung über die Aufteilungsbasis hängt vom Hauptproblem und den Attributen des verwendeten Datensatzes ab.

Beispiel eines Gini-Index

Wir sollten ein binäres Klassifizierungsproblem in Betracht ziehen, bei dem wir einen Datensatz von 10 Beispielen mit zwei Klassen haben: „Positiv“ und „Negativ“. Von den 10 Beispielen haben 6 einen Platz in der Klasse „Positiv“ und 4 einen Platz in der Klasse „Negativ“.

Um den Gini-Index des Datensatzes zu berechnen, berechnen wir zunächst die Wahrscheinlichkeit jeder Klasse:

p_1 = 6/10 = 0,6 (Positiv)

p_2 = 4/10 = 0,4 (Negativ)

An diesem Punkt verwenden wir dann die Gini-Index-Formel, um die Verunreinigung des Datensatzes zu berechnen:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Der Gini-Index des Datensatzes beträgt also 0,48.

Angenommen, wir müssen den Datensatz in ein Element „X“ aufteilen, das zwei mögliche Werte hat: „A“ und „B“. Wir teilen den Datensatz im Hinblick auf die Komponente in zwei Teilmengen auf:

Teilmenge 1 (X = A): 4 positiv, 1 negativ

Teilmenge 2 (X = B): 2 positiv, 3 negativ

Um den Rückgang des Gini-Index für diese Aufteilung zu berechnen, berechnen wir zunächst den Gini-Index jeder Teilmenge:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Anschließend verwenden wir die Informationsgewinnformel, um den Rückgang des Gini-Index zu berechnen:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Der Informationsgewinn (d. h. die Verringerung des Gini-Index) für die Aufteilung des Datensatzes auf Hervorhebung „X“ beträgt also 0,08.

Wenn wir in dieser Situation den Informationsgewinn für alle Elemente berechnen und dasjenige mit dem bemerkenswertesten Informationsgewinn auswählen, wird diese Komponente als beste Komponente für die Aufteilung am Wurzelknoten des Entscheidungsbaums ausgewählt.

Vorteile:

Der Gini-Index ist ein weit verbreitetes Maß zur Bewertung der Art von Aufteilungen in Entscheidungsbäumen und hat gegenüber anderen Maßen wie der Entropie oder der Fehlklassifizierungsrate einige Vorteile. Hier sind einige der Hauptvorteile der Verwendung des Gini-Index:

Unterschied zwischen Firma und Unternehmen

Rechnerisch effizient: Der Gini-Index ist ein weniger komplexes und rechentechnisch schnelleres Maß im Gegensatz zu anderen Maßen, beispielsweise der Entropie, bei der Logarithmen berechnet werden.

Intuitive Interpretation: Der Gini-Index ist unkompliziert und interpretierbar. Es misst die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Beispiel aus einer Menge falsch klassifiziert wird, falls es zufällig entsprechend der Klassenübertragung in der Menge markiert wurde.

Gut für die binäre Klassifizierung: Der Gini-Index ist besonders leistungsstark für binäre Klassifizierungsprobleme, bei denen die Zielvariable nur zwei Klassen hat. In solchen Fällen ist der Gini-Index bekanntermaßen stabiler als andere Maße.

Robust gegenüber Klassenungleichgewicht: Der Gini-Index ist im Vergleich zu anderen Messgrößen, beispielsweise Präzision oder Fehlklassifizierungsrate, weniger anfällig für Klassenungleichgewichte. Dies liegt daran, dass der Gini-Index vom allgemeinen Umfang der Beispiele in jeder Klasse und nicht von den tatsächlichen Zahlen abhängt.

Weniger anfällig für Überanpassung: Der Gini-Index führt im Allgemeinen zu bescheideneren Entscheidungsbäumen im Vergleich zu anderen Maßen, wodurch er weniger anfällig für Überanpassungen ist. Dies liegt daran, dass der Gini-Index im Allgemeinen Funktionen bevorzugt, die kleinere Datenpakete ergeben, was die Möglichkeiten einer Überanpassung verringert.

Nachteile:

Während der Gini-Index als Aufteilungsmaß für Entscheidungsbäume einige Vorteile bietet, hat er auch einige Nachteile. Hier sind einige der größten Nachteile der Verwendung des Gini-Index:

Tendenz zu Features mit vielen Kategorien: Der Gini-Index tendiert im Allgemeinen zu Features mit vielen Kategorien oder Werten, da diese mehr Aufteilungen und Pakete der Daten vornehmen können. Dies kann zu einer Überanpassung und einem komplizierteren Entscheidungsbaum führen.

Nicht gut für kontinuierliche Variablen: Der Gini-Index eignet sich nicht für kontinuierliche Variablen, da er eine Diskretisierung der Variablen in Kategorien oder Klassen erfordert, was zu Informationsverlust und verminderter Genauigkeit führen kann.

Ignoriert Funktionsinteraktionen: Der Gini-Index berücksichtigt lediglich die individuelle Vorhersagekraft jedes Merkmals und ignoriert Wechselwirkungen zwischen Merkmalen. Dies kann zu schlechten Aufteilungen und weniger genauen Prognosen führen.

Für einige Datensätze nicht ideal: Manchmal ist der Gini-Index möglicherweise nicht das ideale Maß für die Bewertung der Art von Aufteilungen in einem Entscheidungsbaum. Für den Fall, dass die Zielvariable beispielsweise außergewöhnlich schief oder unausgeglichen ist, könnten andere Messgrößen, beispielsweise der Informationsgewinn oder der Gewinnanteil, besser geeignet sein.

Anfällig für Verzerrungen bei fehlenden Werten: Der Gini-Index kann bei fehlenden Werten verzerrt sein, da er im Allgemeinen Merkmale mit weniger fehlenden Werten bevorzugt, unabhängig davon, ob diese nicht die aussagekräftigsten sind.

Praktische Anwendungen des Gini-Index

Der Gini-Index wurde in verschiedenen Anwendungen des maschinellen Lernens verwendet, beispielsweise zum Auffinden von Erpressungen, zur Kreditbewertung und zur Kundenaufteilung. Beispielsweise kann der Gini-Index bei der Aufdeckung von Erpressungen genutzt werden, um Designs in Austauschdaten zu unterscheiden und bizarre Verhaltensweisen zu erkennen. Bei der Bonitätsbewertung kann der Gini-Index verwendet werden, um die Wahrscheinlichkeit eines Zahlungsausfalls anhand von Variablen wie Einkommen, Verhältnis von ausstehenden Schulden zu Nettozahlungen und Verlauf der Kreditrückzahlung vorherzusagen. Bei der Kundeneinteilung kann der Gini-Index genutzt werden, um Kunden hinsichtlich ihres Verhaltens und ihrer Neigungen zu bündeln.

Zukunftsforschung

Trotz seiner grenzenlosen Verwendung in Entscheidungsbaumalgorithmen gibt es immer noch Forschungsbedarf zum Gini-Index. Ein Forschungsbereich ist die Weiterentwicklung neuer Verunreinigungsmaße, mit denen die Einschränkungen des Gini-Index, wie z. B. seine Neigung zu Faktoren mit vielen Ebenen, angegangen werden können. Ein weiterer Forschungsbereich ist die Optimierung von Entscheidungsbaumalgorithmen unter Verwendung des Gini-Index, beispielsweise die Verwendung von Outfit-Techniken zur Verbesserung der Genauigkeit von Entscheidungsbäumen.

Abschluss

Der Gini-Index ist ein signifikantes Verunreinigungsmaß, das in Entscheidungsbaumalgorithmen für Klassifizierungsaufgaben verwendet wird. Es misst die Wahrscheinlichkeit, dass ein zufällig ausgewählter Test durch einen Entscheidungsbaumalgorithmus falsch klassifiziert wird, und sein Wert reicht von 0 (vollkommen rein) bis 1 (vollkommen unrein). Der Gini-Index ist unkompliziert und leistungsfähig, rechenintensiv und leistungsstark gegenüber Ausnahmen. Es wurde in verschiedenen Anwendungen des maschinellen Lernens eingesetzt, beispielsweise zur Erkennung falscher Angaben, zur Kreditbewertung und zur Kundenaufteilung. Obwohl der Gini-Index einige Einschränkungen aufweist, besteht noch Forschungsbedarf zu seiner Verbesserung und der Verbesserung neuer Verunreinigungsmaße.