LLE (Lokal lineare Einbettung) ist ein unbeaufsichtigter Ansatz, der darauf abzielt, Daten aus ihrem ursprünglichen hochdimensionalen Raum in eine niedrigerdimensionale Darstellung umzuwandeln und dabei gleichzeitig darauf zu achten, die wesentlichen geometrischen Eigenschaften der zugrunde liegenden nichtlinearen Merkmalsstruktur beizubehalten. LLE arbeitet in mehreren Schlüsselschritten:
- Zunächst wird ein Diagramm der nächsten Nachbarn erstellt, um diese lokalen Beziehungen zu erfassen. Anschließend werden die Gewichtswerte für jeden Datenpunkt optimiert, um den Rekonstruktionsfehler zu minimieren, wenn ein Punkt als lineare Kombination seiner Nachbarn dargestellt wird. Diese Gewichtsmatrix spiegelt die Stärke der Verbindungen zwischen Punkten wider.
- Als nächstes berechnet LLE durch Finden eine niedrigerdimensionale Darstellung der Daten Eigenvektoren einer aus der Gewichtsmatrix abgeleiteten Matrix. Diese Eigenvektoren repräsentieren die relevantesten Richtungen im reduzierten Raum. Benutzer können die gewünschte Dimensionalität für den Ausgaberaum angeben und LLE wählt die oberen Eigenvektoren entsprechend aus.
Betrachten Sie zur Veranschaulichung a Biskuitrollen-Datensatz , das in seinem hochdimensionalen Raum von Natur aus nichtlinear ist. In diesem Fall arbeitet LLE daran, diese komplexe Struktur auf eine niedrigerdimensionale Ebene zu projizieren und dabei ihre charakteristischen geometrischen Eigenschaften während des gesamten Transformationsprozesses beizubehalten.
Inhaltsverzeichnis
- Mathematische Implementierung des LLE-Algorithmus
- Lokallinearer Einbettungsalgorithmus
- Parameter im LLE-Algorithmus
- Implementierung der lokal linearen Einbettung
- Vorteile von LLE
- Nachteile von LLE
Mathematische Implementierung des LLE-Algorithmus
Die Schlüsselidee von LLE besteht darin, dass die Daten lokal, in der Nähe jedes Datenpunkts, ungefähr auf einem linearen Unterraum liegen. LLE versucht, die Daten zu entfalten oder abzuwickeln und dabei diese lokalen linearen Beziehungen beizubehalten.
Hier ist ein mathematischer Überblick über den LLE-Algorithmus:
Minimieren: 
Vorbehaltlich: 
Wo:
- Xichstellt den i-ten Datenpunkt dar.
- Inijsind die Gewichte, die den Rekonstruktionsfehler für Datenpunkt x minimierenichseine Nachbarn nutzen.
Ziel ist es, eine niedrigerdimensionale Darstellung von Daten zu finden und dabei lokale Beziehungen beizubehalten. Der mathematische Ausdruck für LLE beinhaltet die Minimierung des Rekonstruktionsfehlers jedes Datenpunkts, indem er als gewichtete Summe seiner Datenpunkte ausgedrückt wird k nächste Nachbarn „Beiträge. Diese Optimierung unterliegt Einschränkungen, die sicherstellen, dass die Gewichtungen für jeden Datenpunkt 1 ergeben. Locally Linear Embedding (LLE) ist eine Technik zur Dimensionsreduktion, die beim maschinellen Lernen und bei der Datenanalyse verwendet wird. Der Schwerpunkt liegt auf der Beibehaltung lokaler Beziehungen zwischen Datenpunkten bei der Abbildung hochdimensionaler Daten auf einen niedrigerdimensionalen Raum. Hier erklären wir den LLE-Algorithmus und seine Parameter.
Lokal linearer Einbettungsalgorithmus
Der LLE-Algorithmus kann in mehrere Schritte unterteilt werden:
- Nachbarschaftsauswahl: Für jeden Datenpunkt im hochdimensionalen Raum identifiziert LLE seine k-nächsten Nachbarn. Dieser Schritt ist von entscheidender Bedeutung, da LLE davon ausgeht, dass jeder Datenpunkt durch eine lineare Kombination seiner Nachbarn gut angenähert werden kann.
- Aufbau der Gewichtsmatrix: LLE berechnet eine Reihe von Gewichtungen für jeden Datenpunkt, um ihn als lineare Kombination seiner Nachbarn auszudrücken. Diese Gewichte werden so bestimmt, dass der Rekonstruktionsfehler minimiert wird. Um diese Gewichte zu ermitteln, wird häufig die lineare Regression verwendet.
- Globale Strukturerhaltung: Nach der Erstellung der Gewichtsmatrix versucht LLE, eine niedrigerdimensionale Darstellung der Daten zu finden, die die lokalen linearen Beziehungen am besten bewahrt. Dazu wird für jeden Datenpunkt ein Koordinatensatz im niedrigerdimensionalen Raum gesucht, der eine Kostenfunktion minimiert. Das Kostenfunktion Bewertet, wie gut jeder Datenpunkt durch seine Nachbarn dargestellt werden kann.
- Ausgabeeinbettung: Sobald der Optimierungsprozess abgeschlossen ist, stellt LLE die endgültige niederdimensionale Darstellung der Daten bereit. Diese Darstellung erfasst die wesentliche Struktur der Daten und reduziert gleichzeitig deren Dimensionalität.
Parameter im LLE-Algorithmus
LLE hat einige Parameter, die sein Verhalten beeinflussen:
- k (Anzahl der Nachbarn): Dieser Parameter bestimmt, wie viele nächste Nachbarn beim Aufbau der Gewichtsmatrix berücksichtigt werden. Ein größeres k erfasst globalere Beziehungen, kann jedoch zu Rauschen führen. Ein kleineres k konzentriert sich auf lokale Beziehungen, kann jedoch empfindlich auf Ausreißer reagieren. Die Auswahl eines geeigneten Werts für k ist für den Erfolg des Algorithmus von entscheidender Bedeutung.
- Dimensionalität des Ausgaberaums: Sie können die Dimensionalität des niedrigerdimensionalen Raums angeben, dem die Daten zugeordnet werden. Dies wird oft basierend auf den Anforderungen des Problems und dem Kompromiss zwischen Rechenkomplexität und Informationserhaltung gewählt.
- Entfernungsmetrik: LLE basiert auf einer Distanzmetrik, um die Nähe zwischen Datenpunkten zu definieren. Zu den gängigen Optionen gehören die euklidische Distanz, die Manhattan-Distanz oder benutzerdefinierte Distanzfunktionen. Die Wahl der Distanzmetrik kann sich auf die Ergebnisse auswirken.
- Regularisierung (optional): In einigen Fällen werden der Kostenfunktion Regularisierungsterme hinzugefügt, um eine Überanpassung zu verhindern. Die Regularisierung kann nützlich sein, wenn es um verrauschte Daten geht oder wenn die Anzahl der Nachbarn hoch ist.
- Optimierungsalgorithmus (optional): LLE verwendet häufig Optimierungstechniken wie Einzelwertzerlegung (SVD) oder Eigenvektormethoden, um die niedrigerdimensionale Darstellung zu finden. Diese Optimierungsmethoden können über eigene Parameter verfügen, die angepasst werden können.
LLE (lokal lineare Einbettung) stellt einen bedeutenden Fortschritt in der Strukturanalyse dar und übertrifft traditionelle Dichtemodellierungstechniken wie die lokale PCA oder Mischungen von Faktoranalysatoren. Die Einschränkung von Dichtemodellen liegt darin, dass sie nicht in der Lage sind, konsistent einen Satz globaler Koordinaten zu erstellen, der in der Lage ist, Beobachtungen über die gesamte strukturelle Mannigfaltigkeit einzubetten. Folglich erweisen sie sich für Aufgaben wie die Erstellung niedrigdimensionaler Projektionen des Originaldatensatzes als unzureichend. Diese Modelle zeichnen sich nur durch die Identifizierung linearer Merkmale aus, wie im Bild unten dargestellt. Allerdings sind sie nicht in der Lage, komplizierte gekrümmte Muster zu erfassen, eine Fähigkeit, die LLE innewohnt.
Verbesserte Recheneffizienz mit LLE. LLE bietet aufgrund der Verarbeitung dünner Matrizen eine überlegene Recheneffizienz und übertrifft andere Algorithmen.
Implementierung der lokal linearen Einbettung
Bibliotheken importieren
Python3
#importing Libraries> import> numpy as np> import> matplotlib.pyplot as plt> from> sklearn.datasets>import> make_swiss_roll> from> sklearn.manifold>import> LocallyLinearEmbedding> |
>
>
Der Code beginnt mit dem Importieren der erforderlichen Bibliotheken, einschließlich Numpy, matplotlib.pyplot , make_swiss_roll von sklearn.datasets und LocallyLinearEmbedding von sklearn.manifold .
Generieren eines synthetischen Datensatzes (Swiss Roll)
Python3
# Code for Generating a synthetic dataset (Swiss Roll)> n_samples>=> 1000> # Define the number of neighbors for LLE> n_neighbors>=> 10> X, _>=> make_swiss_roll(n_samples>=>n_samples)> |
>
>
Mithilfe der Funktion make_swiss_roll von scikit-learn wird ein synthetischer Datensatz generiert, der einer Biskuitrolle ähnelt.
n_samples gibt die Anzahl der zu generierenden Datenpunkte an.
n_neighbors definiert die Anzahl der im LLE-Algorithmus verwendeten Nachbarn.
Anwenden der lokal linearen Einbettung (LLE)
Python3
# Including Locally Linear Embedding> lle>=> LocallyLinearEmbedding(n_neighbors>=>n_neighbors, n_components>=>2>)> X_reduced>=> lle.fit_transform(X)> |
>
>
Eine Instanz des LLE-Algorithmus wird mit LocallyLinearEmbedding erstellt. Der Parameter n_neighbors bestimmt die Anzahl der Nachbarn, die während des Einbettungsprozesses berücksichtigt werden sollen.
Der LLE-Algorithmus wird dann mithilfe von an die Originaldaten X angepasst fit_transform Methode. Dieser Schritt reduziert den Datensatz auf zwei Dimensionen (n_components=2).
Visualisierung der ursprünglichen und reduzierten Daten
Python3
# Code for Visualizing the original Versus reduced data> plt.figure(figsize>=>(>12>,>6>))> plt.subplot(>121>)> plt.scatter(X[:,>0>], X[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Original Data'>)> plt.xlabel(>'Feature 1'>)> plt.ylabel(>'Feature 2'>)> plt.subplot(>122>)> plt.scatter(X_reduced[:,>0>], X_reduced[:,>1>], c>=>X[:,>2>], cmap>=>plt.cm.Spectral)> plt.title(>'Reduced Data (LLE)'>)> plt.xlabel(>'Component 1'>)> plt.ylabel(>'Component 2'>)> plt.tight_layout()> plt.show()> |
>
>
Ausgabe:
Lokal lineare Einbettung
Im zweiten Teilplot werden die von LLE erhaltenen reduzierten Daten (X_reduced) auf ähnliche Weise wie die Originaldaten visualisiert. Die Farbe der Datenpunkte wird weiterhin durch das dritte Merkmal der Originaldaten (X[:, 2]) bestimmt plt.tight_layout() Die Funktion wird verwendet, um den richtigen Abstand zwischen Unterplots sicherzustellen.
Vorteile von LLE
Die als Local Linear Embedding (LLE) bekannte Methode zur Dimensionsreduktion bietet viele Vorteile für die Datenverarbeitung und -visualisierung. Die wichtigsten Vorteile von LLE sind:
- Erhaltung lokaler Strukturen : LLE ist hervorragend darin, die lokalen Beziehungen oder Strukturen in den Daten aufrechtzuerhalten. Es erfasst erfolgreich die inhärente Geometrie nichtlinearer Mannigfaltigkeiten, indem es paarweise Abstände zwischen benachbarten Datenpunkten beibehält.
- Umgang mit Nichtlinearität : LLE ist im Gegensatz zu linearen Techniken wie z. B. in der Lage, nichtlineare Muster und Strukturen in den Daten zu erfassen Hauptkomponentenanalyse (PCA). Bei der Arbeit mit komplizierten, gekrümmten oder verdrehten Datensätzen ist dies besonders hilfreich.
- Dimensionsreduktion : LLE verringert die Dimensionalität der Daten und behält gleichzeitig ihre grundlegenden Eigenschaften bei. Insbesondere bei der Arbeit mit hochdimensionalen Datensätzen vereinfacht diese Reduzierung die Datenpräsentation, -exploration und -analyse.
Nachteile von LLE
- Fluch der Dimensionalität : LLE kann das erleben Fluch der Dimensionalität bei Verwendung mit extrem hochdimensionalen Daten, genau wie viele andere Ansätze zur Dimensionsreduzierung. Die Anzahl der zur Erfassung lokaler Interaktionen erforderlichen Nachbarn steigt mit der Dimensionalität, was möglicherweise den Rechenaufwand des Ansatzes erhöht.
- Speicher- und Rechenanforderungen : Bei großen Datensätzen kann die Erstellung einer gewichteten Adjazenzmatrix als Teil von LLE speicherintensiv sein. Die Eigenwertzerlegungsphase kann bei großen Datensätzen auch rechenintensiv sein.
- Ausreißer und verrauschte Daten : LLE ist anfällig für Anomalien und unruhige Datenpunkte. Die Qualität der Einbettung kann beeinträchtigt sein und die lokalen linearen Beziehungen können durch Ausreißer verzerrt sein.