APRIORI-ALGORITHMUS - DATA MINING

Der Apriori-Algorithmus bezieht sich auf den Algorithmus, der zur Berechnung der Assoziationsregeln zwischen Objekten verwendet wird. Es bedeutet, wie zwei oder mehr Objekte miteinander in Beziehung stehen. Mit anderen Worten können wir sagen, dass der Apriori-Algorithmus eine Assoziationsregel ist, die analysiert, dass Personen, die Produkt A gekauft haben, auch Produkt B gekauft haben.

Das Hauptziel des Apriori-Algorithmus besteht darin, die Assoziationsregel zwischen verschiedenen Objekten zu erstellen. Die Assoziationsregel beschreibt, wie zwei oder mehr Objekte zueinander in Beziehung stehen. Der Apriori-Algorithmus wird auch als Frequent Pattern Mining bezeichnet. Im Allgemeinen verwenden Sie den Apriori-Algorithmus für eine Datenbank, die aus einer großen Anzahl von Transaktionen besteht. Lassen Sie uns den Apriori-Algorithmus anhand eines Beispiels verstehen. Angenommen, Sie gehen zum Großen Basar und kaufen verschiedene Produkte. Es erleichtert den Kunden den Kauf ihrer Produkte und steigert die Verkaufsleistung des Big Bazar. In diesem Tutorial werden wir den Apriori-Algorithmus anhand von Beispielen diskutieren.

Einführung

Wir nehmen ein Beispiel, um das Konzept besser zu verstehen. Sie müssen bemerkt haben, dass der Pizzaverkäufer eine Kombination aus Pizza, Erfrischungsgetränk und Grissini herstellt. Er bietet seinen Kunden, die diese Kombinationen kaufen, auch einen Rabatt an. Haben Sie jemals darüber nachgedacht, warum er das tut? Er glaubt, dass Kunden, die Pizza kaufen, auch Erfrischungsgetränke und Grissini kaufen. Durch die Erstellung von Combos macht er es den Kunden jedoch leicht. Gleichzeitig steigert er auch seine Vertriebsleistung.

Ebenso gehen Sie zum Big Bazar und finden dort gebündelte Kekse, Chips und Schokolade. Es zeigt, dass der Ladenbesitzer es den Kunden ermöglicht, diese Produkte bequem am selben Ort zu kaufen.

Die beiden oben genannten Beispiele sind die besten Beispiele für Assoziationsregeln in

Unterstützung

Vertrauen

Aufzug

Nehmen wir ein Beispiel, um dieses Konzept zu verstehen.

Wir haben es oben bereits besprochen; Sie benötigen eine riesige Datenbank mit einer großen Anzahl von Transaktionen. Angenommen, Sie haben 4000 Kundentransaktionen in einem großen Basar. Sie müssen die Unterstützung, das Vertrauen und den Anstieg für zwei Produkte berechnen, und Sie sagen vielleicht Kekse und Schokolade. Dies liegt daran, dass Kunden diese beiden Artikel häufig zusammen kaufen.

Von den 4000 Transaktionen enthalten 400 Kekse, während 600 Schokolade enthalten, und in diesen 600 Transaktionen sind 200 Transaktionen enthalten, die Kekse und Schokolade enthalten. Anhand dieser Daten ermitteln wir die Unterstützung, das Vertrauen und den Aufschwung.

Unterstützung

Unter Support versteht man die standardmäßige Beliebtheit eines Produkts. Sie finden die Unterstützung als Quotient aus der Division der Anzahl der Transaktionen, aus denen dieses Produkt besteht, durch die Gesamtzahl der Transaktionen. Daher erhalten wir

Support (Kekse) = (Keksbezogene Transaktionen) / (Gesamttransaktionen)

= 400/4000 = 10 Prozent.

Vertrauen

Vertrauen bezieht sich auf die Möglichkeit, dass die Kunden sowohl Kekse als auch Pralinen zusammen gekauft haben. Um die Zuverlässigkeit zu ermitteln, müssen Sie also die Anzahl der Transaktionen, die sowohl Kekse als auch Schokolade umfassen, durch die Gesamtzahl der Transaktionen dividieren.

Somit,

Vertrauen = (Transaktionen im Zusammenhang mit Keksen und Schokolade) / (Gesamttransaktionen mit Keksen)

= 200/400

= 50 Prozent.

Das bedeutet, dass 50 Prozent der Kunden, die Kekse kauften, auch Schokolade kauften.

Aufzug

Betrachten Sie das obige Beispiel. Der Anstieg bezieht sich auf die Steigerung des Verkaufsverhältnisses von Schokolade beim Verkauf von Keksen. Die mathematischen Gleichungen des Auftriebs sind unten angegeben.

Steigerung = (Selbstvertrauen (Kekse – Pralinen)/ (Unterstützung (Kekse)

= 50/10 = 5

Das bedeutet, dass die Wahrscheinlichkeit, Kekse und Pralinen zusammen zu kaufen, fünfmal höher ist als die Wahrscheinlichkeit, Kekse allein zu kaufen. Wenn der Liftwert unter eins liegt, bedeutet dies, dass es unwahrscheinlich ist, dass die Personen beide Artikel zusammen kaufen. Je größer der Wert, desto besser ist die Kombination.

Wie funktioniert der Apriori-Algorithmus im Data Mining?

Wir werden diesen Algorithmus anhand eines Beispiels verstehen

Stellen Sie sich ein Big Bazar-Szenario vor, bei dem die Produktmenge P = {Reis, Hülsenfrüchte, Öl, Milch, Apfel} ist. Die Datenbank umfasst sechs Transaktionen, wobei 1 für das Vorhandensein des Produkts und 0 für das Fehlen des Produkts steht.

Transaktions-ID	Reis	Impuls	Ölmilch	Apfel
t1	1	1	1	0	0
t2	0	1	1	1	0
t3	0	0	0	1	1
t4	1	1	0	1	0
t5	1	1	1	0	1
t6	1	1	1	1	1

Der Apriori-Algorithmus geht von den gegebenen Annahmen aus

Alle Teilmengen einer häufigen Elementmenge müssen häufig sein.
Die Teilmengen einer Gruppe seltener Elemente müssen selten sein.
Legen Sie einen Schwellenwert für die Unterstützung fest. In unserem Fall haben wir ihn auf 50 Prozent festgelegt.

Schritt 1

Erstellen Sie eine Häufigkeitstabelle aller Produkte, die in allen Transaktionen vorkommen. Verkürzen Sie nun die Häufigkeitstabelle, um nur die Produkte hinzuzufügen, deren Unterstützungsschwellenwert über 50 Prozent liegt. Wir finden die angegebene Häufigkeitstabelle.

Produkt	Häufigkeit (Anzahl der Transaktionen)
Reis (R)	4
Puls(P)	5
Öl(O)	4
Milch(M)	4

In der obigen Tabelle sind die von den Kunden am häufigsten gekauften Produkte aufgeführt.

Schritt 2

Erstellen Sie Produktpaare wie RP, RO, RM, PO, PM, OM. Sie erhalten die angegebene Häufigkeitstabelle.

Artikelsatz	Häufigkeit (Anzahl der Transaktionen)
RP	4
RO	3
RM	2
NACH	4
PN	3
UM	2

Schritt 3

Implementieren Sie den gleichen Schwellenwert für die Unterstützung von 50 Prozent und berücksichtigen Sie die Produkte, die mehr als 50 Prozent betragen. In unserem Fall sind es mehr als 3

Somit erhalten wir RP, RO, PO und PM

Java-Ganzzahl

Schritt 4

Suchen Sie nun nach einem Set mit drei Produkten, die die Kunden gemeinsam kaufen. Wir erhalten die angegebene Kombination.

RP und RO ergeben RPO
PO und PM geben POM

Schritt 5

Berechnen Sie die Häufigkeit der beiden Itemsets und Sie erhalten die angegebene Häufigkeitstabelle.

Artikelsatz	Häufigkeit (Anzahl der Transaktionen)
RPO	4
POM	3

Wenn Sie die Schwellenwertannahme implementieren, können Sie herausfinden, dass die drei Produkte des Kunden RPO sind.

Wir haben ein einfaches Beispiel betrachtet, um den Apriori-Algorithmus im Data Mining zu diskutieren. In Wirklichkeit gibt es Tausende solcher Kombinationen.

Wie kann die Effizienz des Apriori-Algorithmus verbessert werden?

Für die Effizienz des Apriori-Algorithmus werden verschiedene Methoden verwendet

Hash-basierte Itemset-Zählung

Bei der Hash-basierten Itemset-Zählung müssen Sie das k-Itemset ausschließen, dessen entsprechende Hashing-Bucket-Anzahl den Schwellenwert unterschreitet und ein seltenes Itemset ist.

Transaktionsreduzierung

Bei der Transaktionsreduzierung wird eine Transaktion, an der kein häufiges X-Itemset beteiligt ist, bei nachfolgenden Scans nutzlos.

Apriori-Algorithmus im Data Mining

Wir haben bereits ein Beispiel für den Apriori-Algorithmus im Zusammenhang mit der häufigen Generierung von Itemsets besprochen. Der Apriori-Algorithmus hat viele Anwendungen im Data Mining.

Die wichtigsten Anforderungen zum Finden der Assoziationsregeln im Data Mining sind unten aufgeführt.

Verwenden Sie Brute Force

Analysieren Sie alle Regeln und ermitteln Sie die Unterstützungs- und Konfidenzniveaus für die einzelne Regel. Eliminieren Sie anschließend die Werte, die unter den Schwellenwerten für Unterstützung und Konfidenz liegen.

Die zweistufigen Ansätze

Der zweistufige Ansatz ist eine bessere Option zum Ermitteln der Assoziationsregeln als die Brute-Force-Methode.

Schritt 1

In diesem Artikel haben wir bereits besprochen, wie man die Häufigkeitstabelle erstellt und Itemsets berechnet, deren Unterstützungswert größer als der Schwellenwert der Unterstützung ist.

Schritt 2

Um Assoziationsregeln zu erstellen, müssen Sie eine binäre Partition der häufigen Itemsets verwenden. Sie müssen diejenigen mit dem höchsten Konfidenzniveau auswählen.

Im obigen Beispiel können Sie sehen, dass die RPO-Kombination das häufige Elementset war. Jetzt finden wir alle Regeln mithilfe von RPO heraus.

RP-O, RO-P, PO-R, O-RP, P-RO, R-PO

Sie sehen, dass es sechs verschiedene Kombinationen gibt. Wenn Sie also n Elemente haben, sind es 2^N- 2 Regeln für die Kandidatenvereinigung.

Vorteile des Apriori-Algorithmus

Es wird zur Berechnung großer Artikelmengen verwendet.
Einfach zu verstehen und anzuwenden.

Nachteile von Apriori-Algorithmen

Der Apriori-Algorithmus ist eine teure Methode, um Unterstützung zu finden, da die Berechnung die gesamte Datenbank durchlaufen muss.
Manchmal benötigt man eine große Anzahl von Kandidatenregeln, was den Rechenaufwand erhöht.