Clustering oder Clusteranalyse ist eine Technik des maschinellen Lernens, die den unbeschrifteten Datensatz gruppiert. Es kann definiert werden als „Eine Möglichkeit, die Datenpunkte in verschiedene Cluster zu gruppieren, die aus ähnlichen Datenpunkten bestehen.“ „Die Objekte mit den möglichen Ähnlichkeiten bleiben in einer Gruppe, die weniger oder keine Ähnlichkeiten mit einer anderen Gruppe aufweist.“
Dazu werden im unbeschrifteten Datensatz einige ähnliche Muster wie Form, Größe, Farbe, Verhalten usw. gefunden und nach dem Vorhandensein und Fehlen dieser ähnlichen Muster unterteilt.
Es ist ein unbeaufsichtigtes Lernen Daher wird der Algorithmus nicht überwacht und er verarbeitet den unbeschrifteten Datensatz.
Nach Anwendung dieser Clustering-Technik erhält jeder Cluster bzw. jede Gruppe eine Cluster-ID. ML-Systeme können diese ID verwenden, um die Verarbeitung großer und komplexer Datensätze zu vereinfachen.
Die Clustering-Technik wird häufig verwendet für statistische Datenanalyse.
Hinweis: Clustering ähnelt in gewisser Weise dem Klassifizierungsalgorithmus , aber der Unterschied liegt in der Art des Datensatzes, den wir verwenden. Bei der Klassifizierung arbeiten wir mit dem beschrifteten Datensatz, während wir beim Clustering mit dem unbeschrifteten Datensatz arbeiten.
Beispiel : Lassen Sie uns die Clustering-Technik anhand des realen Beispiels eines Einkaufszentrums verstehen: Wenn wir ein Einkaufszentrum besuchen, können wir beobachten, dass die Dinge mit ähnlicher Nutzung in Gruppen zusammengefasst sind. So sind zum Beispiel die T-Shirts in einem Abschnitt gruppiert und die Hosen in anderen Abschnitten. Ebenso sind in den Gemüseabschnitten Äpfel, Bananen, Mangos usw. in separaten Abschnitten gruppiert, damit wir die Dinge leicht herausfinden können. Auch die Clustering-Technik funktioniert auf die gleiche Weise. Weitere Beispiele für Clustering sind das Gruppieren von Dokumenten nach Themen.
Die Clustering-Technik kann bei verschiedenen Aufgaben umfassend eingesetzt werden. Einige der häufigsten Anwendungen dieser Technik sind:
Wie viele Millionen sind in einer Milliarde?
- Marktsegmentierung
- Statistische Datenanalyse
- Analyse sozialer Netzwerke
- Bildsegmentierung
- Anomalieerkennung usw.
Abgesehen von diesen allgemeinen Verwendungen wird es von verwendet Amazonas in seinem Empfehlungssystem, um die Empfehlungen entsprechend der vergangenen Produktsuche bereitzustellen. Netflix nutzt diese Technik auch, um seinen Nutzern die Filme und Webserien anhand des Wiedergabeverlaufs zu empfehlen.
Das folgende Diagramm erläutert die Funktionsweise des Clustering-Algorithmus. Wir können sehen, dass die verschiedenen Früchte in mehrere Gruppen mit ähnlichen Eigenschaften unterteilt sind.
Arten von Clustering-Methoden
Die Clustering-Methoden sind grob unterteilt in Hartes Clustering (Datenpunkt gehört nur zu einer Gruppe) und Weiches Clustering (Datenpunkte können auch zu einer anderen Gruppe gehören). Es gibt aber auch andere verschiedene Ansätze des Clusterings. Nachfolgend sind die wichtigsten Clustering-Methoden aufgeführt, die beim maschinellen Lernen verwendet werden:
Partitionierungs-Clustering
Es handelt sich um eine Art Clustering, bei dem die Daten in nicht hierarchische Gruppen unterteilt werden. Es ist auch als bekannt Schwerpunktbasierte Methode . Das häufigste Beispiel für Partitionierungsclustering ist das K-Means-Clustering-Algorithmus .
Bei diesem Typ wird der Datensatz in einen Satz von k Gruppen unterteilt, wobei K verwendet wird, um die Anzahl der vordefinierten Gruppen zu definieren. Das Clusterzentrum wird so erstellt, dass der Abstand zwischen den Datenpunkten eines Clusters im Vergleich zu einem anderen Clusterschwerpunkt minimal ist.
Dichtebasiertes Clustering
Die dichtebasierte Clustering-Methode verbindet die Bereiche mit hoher Dichte zu Clustern, und solange der dichte Bereich verbunden werden kann, werden willkürlich geformte Verteilungen gebildet. Dieser Algorithmus identifiziert dazu verschiedene Cluster im Datensatz und verbindet die Bereiche mit hoher Dichte zu Clustern. Die dichten Bereiche im Datenraum werden durch dünner besiedelte Bereiche voneinander getrennt.
Bei diesen Algorithmen kann es schwierig sein, die Datenpunkte zu gruppieren, wenn der Datensatz unterschiedliche Dichten und große Dimensionen aufweist.
Verteilungsmodellbasiertes Clustering
Bei der verteilungsmodellbasierten Clustering-Methode werden die Daten basierend auf der Wahrscheinlichkeit aufgeteilt, wie ein Datensatz zu einer bestimmten Verteilung gehört. Die Gruppierung erfolgt durch die Annahme einiger gemeinsamer Verteilungen Gaußsche Verteilung .
Ein Beispiel für diesen Typ ist die Erwartungsmaximierungs-Clustering-Algorithmus das Gaußsche Mischungsmodelle (GMM) verwendet.
Finden Sie in String c++
Hierarchisches Clustering
Hierarchisches Clustering kann als Alternative zum partitionierten Clustering verwendet werden, da keine Vorgabe der Anzahl der zu erstellenden Cluster erforderlich ist. Bei dieser Technik wird der Datensatz in Cluster unterteilt, um eine baumartige Struktur zu erstellen, die auch als a bezeichnet wird Dendrogramm . Die Beobachtungen oder eine beliebige Anzahl von Clustern können ausgewählt werden, indem der Baum auf der richtigen Ebene geschnitten wird. Das häufigste Beispiel für diese Methode ist die Agglomerativer hierarchischer Algorithmus .
Fuzzy-Clustering
Fuzzy-Clustering ist eine Art Soft-Methode, bei der ein Datenobjekt zu mehr als einer Gruppe oder einem Cluster gehören kann. Jeder Datensatz verfügt über eine Reihe von Mitgliedschaftskoeffizienten, die vom Grad der Mitgliedschaft in einem Cluster abhängen. Fuzzy-C-Means-Algorithmus ist das Beispiel für diese Art von Clustering; Er wird manchmal auch als Fuzzy-K-Means-Algorithmus bezeichnet.
Clustering-Algorithmen
Die Clustering-Algorithmen können anhand ihrer oben erläuterten Modelle unterteilt werden. Es sind verschiedene Arten von Clustering-Algorithmen veröffentlicht, aber nur wenige werden häufig verwendet. Der Clustering-Algorithmus basiert auf der Art der Daten, die wir verwenden. Beispielsweise müssen einige Algorithmen die Anzahl der Cluster im gegebenen Datensatz schätzen, während andere den Mindestabstand zwischen den Beobachtungen des Datensatzes ermitteln müssen.
Hier diskutieren wir hauptsächlich beliebte Clustering-Algorithmen, die beim maschinellen Lernen weit verbreitet sind:
Anwendungen des Clusterings
Nachfolgend sind einige allgemein bekannte Anwendungen der Clustering-Technik beim maschinellen Lernen aufgeführt: