logo

Hierarchisches Clustering im Data Mining

Unter hierarchischem Clustering versteht man ein unbeaufsichtigtes Lernverfahren, das aufeinanderfolgende Cluster basierend auf zuvor definierten Clustern bestimmt. Es funktioniert durch die Gruppierung von Daten in einem Clusterbaum. Hierarchische Clustering-Statistiken durch Behandlung jedes Datenpunkts als einzelner Cluster. Der Endpunkt bezieht sich auf eine andere Gruppe von Clustern, wobei sich jeder Cluster vom anderen Cluster unterscheidet und die Objekte innerhalb jedes Clusters untereinander identisch sind.

Es gibt zwei Arten der hierarchischen Clusterbildung

  • Agglomeratives hierarchisches Clustering
  • Spaltendes Clustering

Agglomerative hierarchische Clusterbildung

Agglomeratives Clustering ist eine der häufigsten Arten des hierarchischen Clusterings, mit dem ähnliche Objekte in Clustern gruppiert werden. Agglomeratives Clustering wird auch als AGNES (Agglomerative Nesting) bezeichnet. Beim agglomerativen Clustering fungiert jeder Datenpunkt als einzelner Cluster und bei jedem Schritt werden Datenobjekte nach einer Bottom-up-Methode gruppiert. Zunächst befindet sich jedes Datenobjekt in seinem Cluster. Bei jeder Iteration werden die Cluster mit anderen Clustern kombiniert, bis ein Cluster entsteht.

Zeiger in c

Agglomerativer hierarchischer Clustering-Algorithmus

  1. Bestimmen Sie die Ähnlichkeit zwischen Individuen und allen anderen Clustern. (Näherungsmatrix finden).
  2. Betrachten Sie jeden Datenpunkt als einen einzelnen Cluster.
  3. Kombinieren Sie ähnliche Cluster.
  4. Berechnen Sie die Proximity-Matrix für jeden Cluster neu.
  5. Wiederholen Sie Schritt 3 und Schritt 4, bis Sie einen einzelnen Cluster erhalten.

Lassen Sie uns dieses Konzept mithilfe der grafischen Darstellung mithilfe eines Dendrogramms verstehen.

Mithilfe der gegebenen Demonstration können wir verstehen, wie der eigentliche Algorithmus funktioniert. Hier wurde keine Berechnung durchgeführt, es wird lediglich von der Nähe zwischen den Clustern ausgegangen.

Nehmen wir an, wir haben sechs verschiedene Datenpunkte P, Q, R, S, T, V.

Hierarchisches Clustering im Data Mining

Schritt 1:

Betrachten Sie jedes Alphabet (P, Q, R, S, T, V) als einen einzelnen Cluster und ermitteln Sie den Abstand zwischen dem einzelnen Cluster und allen anderen Clustern.

binäre Baumtypen

Schritt 2:

Führen Sie nun die vergleichbaren Cluster in einem einzigen Cluster zusammen. Nehmen wir an, Cluster Q und Cluster R sind einander ähnlich, sodass wir sie im zweiten Schritt zusammenführen können. Schließlich erhalten wir die Cluster [ (P), (QR), (ST), (V)]

Schritt 3:

Hier berechnen wir die Nähe gemäß dem Algorithmus neu und kombinieren die beiden nächsten Cluster [(ST), (V)] zusammen, um neue Cluster als [(P), (QR), (STV)] zu bilden.

binäre Suche

Schritt 4:

Wiederholen Sie den gleichen Vorgang. Die Cluster STV und PQ sind vergleichbar und werden zu einem neuen Cluster zusammengefasst. Jetzt haben wir [(P), (QQRSTV)].

Schritt 5:

Schließlich werden die verbleibenden zwei Cluster zu einem einzigen Cluster zusammengeführt [(PQRSTV)]

Teilendes hierarchisches Clustering

Das divisive hierarchische Clustering ist genau das Gegenteil des agglomerativen hierarchischen Clusterings. Beim divisiven hierarchischen Clustering werden alle Datenpunkte als ein einzelner Cluster betrachtet und in jeder Iteration werden die Datenpunkte, die nicht ähnlich sind, vom Cluster getrennt. Die getrennten Datenpunkte werden als einzelner Cluster behandelt. Am Ende bleiben N Cluster übrig.

Hierarchisches Clustering im Data Mining

Vorteile des hierarchischen Clusterings

  • Es ist einfach zu implementieren und liefert in manchen Fällen die beste Ausgabe.
  • Es ist einfach und führt zu einer Hierarchie, einer Struktur, die mehr Informationen enthält.
  • Es ist nicht erforderlich, dass wir die Anzahl der Cluster vorab festlegen.

Nachteile der hierarchischen Clusterbildung

  • Es bricht die großen Cluster auf.
  • Es ist schwierig, Cluster unterschiedlicher Größe und konvexer Formen zu handhaben.
  • Es reagiert empfindlich auf Rauschen und Ausreißer.
  • Der Algorithmus kann niemals geändert oder gelöscht werden, nachdem dies zuvor geschehen ist.